MotionLM: 言語モデルとしてのマルチエージェント動作予測

MotionLM: 言語モデルとしてのマルチエージェント動作予測

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

原題: MotionLM: 言語モデルとしてのマルチエージェント動作予測

論文リンク: https://arxiv.org/pdf/2309.16534.pdf

著者: Waymo

会議: ICCV 2023

論文のアイデア:

道路エージェントの将来の行動の信頼性の高い予測は、自律走行車の安全な計画の重要な要素です。ここでは、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、このドメインでの言語モデリングタスクとしてマルチエージェントのモーション予測を定式化します。私たちのモデル MotionLM にはいくつかの利点があります。まず、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数の最適化を必要としません。対照的に、シーケンス トークンの平均対数確率を最大化する単一の標準言語モデリング目標を利用します。第二に、私たちのアプローチは、インタラクションのスコアリングの前に個々のエージェントの軌跡生成が実行される事後インタラクションヒューリスティックを回避します。対照的に、MotionLM は、単一の自己回帰デコード プロセスでインタラクティブ エージェントの将来の結合分布を生成します。さらに、モデルを順次分解することで、時間的な因果条件を導出することが可能になります。提案された方法は、Waymo Open Motion Dataset でのマルチエージェント動作予測において新たな最先端のパフォーマンスを確立し、インタラクティブ チャレンジ リーダーボードで 1 位にランクされました。

主な貢献:

本稿では、マルチエージェントの動作予測を言語モデリングタスクとして定式化し、因果言語モデリング損失でトレーニングされた離散動作トークン上の時間因果デコーダーを導入します。

私たちのモデルでは、サンプリングと、ジョイント軌道の加重パターン認識を容易にするシンプルなロールアウト集約スキームを組み合わせて、Waymo Open Motion Dataset インタラクション予測チャレンジで新たな最先端のパフォーマンスを確立しました (ランク付けされたジョイント mAP メトリックが 6% 向上)。

私たちは、このアプローチについて広範囲にわたるアブレーション実験を実施し、現在の共同予測モ​​デルではほとんどサポートされていない時間的因果関係に関する条件付き予測の能力を分析します。

ネットワーク設計:

この論文の目標は、最小予測、結合予測、条件付き予測などのさまざまな下流タスクに適用できる一般的な方法で、マルチエージェント相互作用の分布をモデル化することです。これには、運転シナリオの多様な様相を捉えることができる表現力豊かな生成フレームワークが必要です。さらに、ここでは時間的な依存性の保存を考慮しています。つまり、私たちのモデルでは、推論は有向非巡回グラフに従い、各ノードには時間的に早い親と時間的に遅い子があり、これにより条件付き予測が因果介入に近づきます[34]。これは、そうでなければ時間的因果関係に従わないことになる特定の偽の相関関係を排除するためです。時間的な依存性を保持しない結合モデルでは、計画における重要な用途である実際のエージェントの応答を予測する能力が制限される可能性があることがわかります。この目的のために、私たちは未来デコーダーの自己回帰分解を活用します。ここでは、エージェントのモーショントークンが以前にサンプリングされたすべてのトークンに条件付きで依存し、軌道が順番に展開されます (図 2)。

図1.私たちのモデルは、エージェントのセットに対して離散的なモーション トークンのシーケンスを自己回帰的に生成し、一貫したインタラクティブな軌道予測を生成します。

図2. MotionLM アーキテクチャ。

まず、モデル化された各エージェント(左)に関連付けられた異種のシーンの特徴を、形状R、N、·、Hのシーン埋め込みにエンコードします。ここで、R はロールアウトの数、N は共同でモデル化されたエージェントの数、H は各埋め込みの次元です。推論中、並列サンプリングのためにバッチ次元で埋め込みを R 回繰り返します。次に、軌道デコーダーは、複数のエージェントに対して、時間的に因果関係のある方法(中心)で T 個の離散モーション トークンを展開します。最後に、非最大抑制で初期化された k-means クラスタリングを使用した単純な集約によって、ロールアウトの典型的なパターンを回復できます (右図)。

図3. 3 つの WOMD シナリオの最初の 2 つの予測共同ロールアウト モードが表示されます。

色のグラデーションは、t = 0 秒から t = 8 秒までの時間経過を示しており、ジョイント モードが緑から青に遷移し、サブジョイント モードがオレンジから紫に遷移する確率が最も高くなります。 3 種類の相互作用が観察されています。隣接車線のエージェントが車線変更時間に基づいて車線変更エージェントに道を譲る (左)、歩行者が車両の進行状況に基づいて追い越し車両の後ろを歩く (中央)、曲がる車両が追い越し中の自転車に道を譲る (最も可能性の高いモード) か、自転車が近づく前に曲がる (二次モード) (右)。

図4.共同ロールアウトの因果ベイジアン ネットワーク表現 (左)、介入後の因果ベイジアン ネットワーク (中央)、因果条件付け (右)。

実線は時間的な因果関係を表し、破線は因果関係の情報の流れを表します。時間依存性の制約のないモデルは因果的条件付けをサポートしますが、時間的因果的条件付けはサポートしません。これは、エージェントの応答を予測しようとするときに問題になる可能性があります。

実験結果:

引用:

Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, KS, & Sapp, B. (2023). MotionLM: 言語モデリングとしてのマルチエージェント動作予測。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A

<<:  自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

>>:  元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Meta と Microsoft が、開発者が生成型 AI アプリケーションを構築できるようにオープンソース モデル Llama 2 をリリース

7月19日、MetaとMicrosoftは協力して、研究や商用目的で無料で使用できるMetaの次世代...

無料の Python 機械学習コース パート 3: 多項式回帰

多項式回帰は線形回帰の改良版です。線形回帰を知っていれば、簡単に理解できるでしょう。そうでない場合は...

200 の優れた機械学習チュートリアルの要約「史上最も完全」

この記事には、これまでで最も優れたチュートリアル コンテンツであると一般に考えられている内容が含まれ...

ハイパーオートメーションはビジネスの未来か?企業にとって何ができるのでしょうか?

ロボティックプロセスオートメーション、人工知能、機械学習などの新しいテクノロジーを組み合わせることで...

製造業におけるロボット:脅威か、それともチャンスか?

過去10年間で製造業におけるロボットの使用が増加しています。先進オートメーション協会が最近発表した調...

Baidu Brainの生体検知+合成画像識別、顔の「写真活性化」ブラックマーケット攻撃を1秒で捉える

現在、顔認識技術の成熟度が増すにつれ、特にDeepFakeやFaceSwapなどの顔編集・生成技術の...

Ruan Yifeng: ガウスぼかしアルゴリズム

通常、画像処理ソフトウェアには、画像にぼかし効果を加えるための「ぼかし」フィルターが用意されています...

生物学的ニューラルネットワークから人工ニューラルネットワークへ

今日、人工知能について話すとき、私たちは数学モデルを使用してデータからパターンの表現を抽出することで...

Googleが4月22日に発表したアルゴリズム改善策の分析

Google の中国ウェブマスター ブログにログインすると、4 月 22 日の午後に更新された「品質...

スマート運転の新たな戦い:「レーダーとビジョンの融合」に対抗、5つの勢力が別々に攻撃

[[440742]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

「製造」から「スマート」な製造へ、産業用インターネットが最良の選択となる

新インフラ政策の導入以来、データセンター、5G、ビッグデータの開発が最も頻繁に言及されていますが、産...

5G時代には人工知能が人を殺し始めるのでしょうか?

映画やテレビ作品では、人工知能による殺人はごく普通のことのように思えますが、結局のところ、それは人間...

パラメータは最大2兆個、GPT-4をはるかに超える!アマゾンの新型オリンパス大型モデルが公開、近日発表予定

大きなモデルの波から遠ざかっていたように見えるAmazonが、ついに最新の進捗状況を発表することにな...

これらのブラウザのAI拡張機能は素晴らしい

ご存知のとおり、拡張機能を追加することによってのみ、ブラウザは最大限の可能性を発揮し、効率を 2 倍...

スーパー暗号解読:自動運転はこうして実現される

[[336217]]多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで...