MotionLM: 言語モデルとしてのマルチエージェント動作予測

MotionLM: 言語モデルとしてのマルチエージェント動作予測

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

原題: MotionLM: 言語モデルとしてのマルチエージェント動作予測

論文リンク: https://arxiv.org/pdf/2309.16534.pdf

著者: Waymo

会議: ICCV 2023

論文のアイデア:

道路エージェントの将来の行動の信頼性の高い予測は、自律走行車の安全な計画の重要な要素です。ここでは、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、このドメインでの言語モデリングタスクとしてマルチエージェントのモーション予測を定式化します。私たちのモデル MotionLM にはいくつかの利点があります。まず、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数の最適化を必要としません。対照的に、シーケンス トークンの平均対数確率を最大化する単一の標準言語モデリング目標を利用します。第二に、私たちのアプローチは、インタラクションのスコアリングの前に個々のエージェントの軌跡生成が実行される事後インタラクションヒューリスティックを回避します。対照的に、MotionLM は、単一の自己回帰デコード プロセスでインタラクティブ エージェントの将来の結合分布を生成します。さらに、モデルを順次分解することで、時間的な因果条件を導出することが可能になります。提案された方法は、Waymo Open Motion Dataset でのマルチエージェント動作予測において新たな最先端のパフォーマンスを確立し、インタラクティブ チャレンジ リーダーボードで 1 位にランクされました。

主な貢献:

本稿では、マルチエージェントの動作予測を言語モデリングタスクとして定式化し、因果言語モデリング損失でトレーニングされた離散動作トークン上の時間因果デコーダーを導入します。

私たちのモデルでは、サンプリングと、ジョイント軌道の加重パターン認識を容易にするシンプルなロールアウト集約スキームを組み合わせて、Waymo Open Motion Dataset インタラクション予測チャレンジで新たな最先端のパフォーマンスを確立しました (ランク付けされたジョイント mAP メトリックが 6% 向上)。

私たちは、このアプローチについて広範囲にわたるアブレーション実験を実施し、現在の共同予測モ​​デルではほとんどサポートされていない時間的因果関係に関する条件付き予測の能力を分析します。

ネットワーク設計:

この論文の目標は、最小予測、結合予測、条件付き予測などのさまざまな下流タスクに適用できる一般的な方法で、マルチエージェント相互作用の分布をモデル化することです。これには、運転シナリオの多様な様相を捉えることができる表現力豊かな生成フレームワークが必要です。さらに、ここでは時間的な依存性の保存を考慮しています。つまり、私たちのモデルでは、推論は有向非巡回グラフに従い、各ノードには時間的に早い親と時間的に遅い子があり、これにより条件付き予測が因果介入に近づきます[34]。これは、そうでなければ時間的因果関係に従わないことになる特定の偽の相関関係を排除するためです。時間的な依存性を保持しない結合モデルでは、計画における重要な用途である実際のエージェントの応答を予測する能力が制限される可能性があることがわかります。この目的のために、私たちは未来デコーダーの自己回帰分解を活用します。ここでは、エージェントのモーショントークンが以前にサンプリングされたすべてのトークンに条件付きで依存し、軌道が順番に展開されます (図 2)。

図1.私たちのモデルは、エージェントのセットに対して離散的なモーション トークンのシーケンスを自己回帰的に生成し、一貫したインタラクティブな軌道予測を生成します。

図2. MotionLM アーキテクチャ。

まず、モデル化された各エージェント(左)に関連付けられた異種のシーンの特徴を、形状R、N、·、Hのシーン埋め込みにエンコードします。ここで、R はロールアウトの数、N は共同でモデル化されたエージェントの数、H は各埋め込みの次元です。推論中、並列サンプリングのためにバッチ次元で埋め込みを R 回繰り返します。次に、軌道デコーダーは、複数のエージェントに対して、時間的に因果関係のある方法(中心)で T 個の離散モーション トークンを展開します。最後に、非最大抑制で初期化された k-means クラスタリングを使用した単純な集約によって、ロールアウトの典型的なパターンを回復できます (右図)。

図3. 3 つの WOMD シナリオの最初の 2 つの予測共同ロールアウト モードが表示されます。

色のグラデーションは、t = 0 秒から t = 8 秒までの時間経過を示しており、ジョイント モードが緑から青に遷移し、サブジョイント モードがオレンジから紫に遷移する確率が最も高くなります。 3 種類の相互作用が観察されています。隣接車線のエージェントが車線変更時間に基づいて車線変更エージェントに道を譲る (左)、歩行者が車両の進行状況に基づいて追い越し車両の後ろを歩く (中央)、曲がる車両が追い越し中の自転車に道を譲る (最も可能性の高いモード) か、自転車が近づく前に曲がる (二次モード) (右)。

図4.共同ロールアウトの因果ベイジアン ネットワーク表現 (左)、介入後の因果ベイジアン ネットワーク (中央)、因果条件付け (右)。

実線は時間的な因果関係を表し、破線は因果関係の情報の流れを表します。時間依存性の制約のないモデルは因果的条件付けをサポートしますが、時間的因果的条件付けはサポートしません。これは、エージェントの応答を予測しようとするときに問題になる可能性があります。

実験結果:

引用:

Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, KS, & Sapp, B. (2023). MotionLM: 言語モデリングとしてのマルチエージェント動作予測。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A

<<:  自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

>>:  元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない

ブログ    
ブログ    

推薦する

Spring-Smart-DI は実装クラスを動的に切り替えます。非常に優れています。

実際のシステム開発のシナリオでは、同じ機能を複数のサービスプロバイダーに接続する必要があるというタイ...

機械学習がオラクルのクラウドアプリケーション戦略の中核に

オラクルの会長兼最高技術責任者(CTO)ラリー・エリソンは本日、Oracle Fusion Clou...

顔認識は政治的立場を決定できるか?研究者:本当ですよ!正解率は72%にも達する

アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...

AIがすぐに作家に取って代わることはないだろうが、その未来はあなたが思っているよりも近いかもしれない

人工知能は、多くの企業にとってコンテンツマーケティングと管理の効率化に大きな役割を果たしています。 ...

ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

人間とは異なり、人工ニューラル ネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘...

自動化から拡張現実まで: 製造業を混乱させる 12 の革新的なテクノロジー トレンド

製造業は、自動車、電子機器、医療機器、機械、その他のシステムの部品を生産する上で重要な役割を果たして...

金メダルレベルの数学スキル:DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

今回、人工知能アルゴリズムが国際数学オリンピック(IMO)で大きな進歩を遂げました。本日発行された国...

動的グラフのディープラーニング - 時系列グラフネットワークモデリング

インターネットから収集したコンテンツさまざまな性質のトランザクション ネットワークや社会的つながりを...

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

——原題:2021年中国人工知能産業の市場現状と有利な軌道の分析。コンピュータビジョンは1000億...

顔認識情報セキュリティは大きな注目を集めており、専門家の代表者らは多くの提案を行っている。

近年、人工知能技術の成熟に伴い、顔認識の応用範囲はますます広がっています。 「顔スキャン」は、効率、...

神経スタイル転送研究の概要: 現在の研究から将来の方向性まで

スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が...

...

AIガバナンスとは何か、どのように、そしてなぜ生まれるのか

AI は登場以来、タスクの自動化や業務の効率化、より優れたテクノロジーの構築、エンドユーザー エクス...

今日のAIの優れた使用例

企業は AI パイロットを実施し、AI を本番環境に移行しています。大手組織はここに賭けており、すで...