この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 原題: MotionLM: 言語モデルとしてのマルチエージェント動作予測 論文リンク: https://arxiv.org/pdf/2309.16534.pdf 著者: Waymo 会議: ICCV 2023 論文のアイデア:道路エージェントの将来の行動の信頼性の高い予測は、自律走行車の安全な計画の重要な要素です。ここでは、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、このドメインでの言語モデリングタスクとしてマルチエージェントのモーション予測を定式化します。私たちのモデル MotionLM にはいくつかの利点があります。まず、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数の最適化を必要としません。対照的に、シーケンス トークンの平均対数確率を最大化する単一の標準言語モデリング目標を利用します。第二に、私たちのアプローチは、インタラクションのスコアリングの前に個々のエージェントの軌跡生成が実行される事後インタラクションヒューリスティックを回避します。対照的に、MotionLM は、単一の自己回帰デコード プロセスでインタラクティブ エージェントの将来の結合分布を生成します。さらに、モデルを順次分解することで、時間的な因果条件を導出することが可能になります。提案された方法は、Waymo Open Motion Dataset でのマルチエージェント動作予測において新たな最先端のパフォーマンスを確立し、インタラクティブ チャレンジ リーダーボードで 1 位にランクされました。 主な貢献:本稿では、マルチエージェントの動作予測を言語モデリングタスクとして定式化し、因果言語モデリング損失でトレーニングされた離散動作トークン上の時間因果デコーダーを導入します。 私たちのモデルでは、サンプリングと、ジョイント軌道の加重パターン認識を容易にするシンプルなロールアウト集約スキームを組み合わせて、Waymo Open Motion Dataset インタラクション予測チャレンジで新たな最先端のパフォーマンスを確立しました (ランク付けされたジョイント mAP メトリックが 6% 向上)。 私たちは、このアプローチについて広範囲にわたるアブレーション実験を実施し、現在の共同予測モデルではほとんどサポートされていない時間的因果関係に関する条件付き予測の能力を分析します。 ネットワーク設計:この論文の目標は、最小予測、結合予測、条件付き予測などのさまざまな下流タスクに適用できる一般的な方法で、マルチエージェント相互作用の分布をモデル化することです。これには、運転シナリオの多様な様相を捉えることができる表現力豊かな生成フレームワークが必要です。さらに、ここでは時間的な依存性の保存を考慮しています。つまり、私たちのモデルでは、推論は有向非巡回グラフに従い、各ノードには時間的に早い親と時間的に遅い子があり、これにより条件付き予測が因果介入に近づきます[34]。これは、そうでなければ時間的因果関係に従わないことになる特定の偽の相関関係を排除するためです。時間的な依存性を保持しない結合モデルでは、計画における重要な用途である実際のエージェントの応答を予測する能力が制限される可能性があることがわかります。この目的のために、私たちは未来デコーダーの自己回帰分解を活用します。ここでは、エージェントのモーショントークンが以前にサンプリングされたすべてのトークンに条件付きで依存し、軌道が順番に展開されます (図 2)。 図1.私たちのモデルは、エージェントのセットに対して離散的なモーション トークンのシーケンスを自己回帰的に生成し、一貫したインタラクティブな軌道予測を生成します。 図2. MotionLM アーキテクチャ。 まず、モデル化された各エージェント(左)に関連付けられた異種のシーンの特徴を、形状R、N、·、Hのシーン埋め込みにエンコードします。ここで、R はロールアウトの数、N は共同でモデル化されたエージェントの数、H は各埋め込みの次元です。推論中、並列サンプリングのためにバッチ次元で埋め込みを R 回繰り返します。次に、軌道デコーダーは、複数のエージェントに対して、時間的に因果関係のある方法(中心)で T 個の離散モーション トークンを展開します。最後に、非最大抑制で初期化された k-means クラスタリングを使用した単純な集約によって、ロールアウトの典型的なパターンを回復できます (右図)。 図3. 3 つの WOMD シナリオの最初の 2 つの予測共同ロールアウト モードが表示されます。 色のグラデーションは、t = 0 秒から t = 8 秒までの時間経過を示しており、ジョイント モードが緑から青に遷移し、サブジョイント モードがオレンジから紫に遷移する確率が最も高くなります。 3 種類の相互作用が観察されています。隣接車線のエージェントが車線変更時間に基づいて車線変更エージェントに道を譲る (左)、歩行者が車両の進行状況に基づいて追い越し車両の後ろを歩く (中央)、曲がる車両が追い越し中の自転車に道を譲る (最も可能性の高いモード) か、自転車が近づく前に曲がる (二次モード) (右)。 図4.共同ロールアウトの因果ベイジアン ネットワーク表現 (左)、介入後の因果ベイジアン ネットワーク (中央)、因果条件付け (右)。 実線は時間的な因果関係を表し、破線は因果関係の情報の流れを表します。時間依存性の制約のないモデルは因果的条件付けをサポートしますが、時間的因果的条件付けはサポートしません。これは、エージェントの応答を予測しようとするときに問題になる可能性があります。 実験結果:引用:Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, KS, & Sapp, B. (2023). MotionLM: 言語モデリングとしてのマルチエージェント動作予測。 翻訳: ... オリジナルリンク: https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A |
<<: 自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない
>>: 元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない
Bilibiliが科学春節祭-スーパーサイエンス祭を開催すると聞きました。この興奮を味わうには、現地...
執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)最...
交通渋滞は車をブロックするだけでなく、人々の心もブロックします。車の窓から頭を出して、目の前に無限に...
ほぼすべての道路状況に適応できる自動運転車の開発は、間違いなく非常に困難な課題です。無人運転車を実現...
1. 人工知能技術の定義人工知能技術は、複雑な生産労働において機械が人間に取って代わることを可能にす...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟AutoML の紹介 自動機械学習 (AutoML) は、...
「人間がテクノロジーを生み出すペースは加速しており、テクノロジーの力は指数関数的に成長しています。指...
今朝、またひとつのAI奇抜なアプリケーションが公開されました!アルゴリズムを使って女性の服を直接「脱...
GPT や LLaMA などの大規模な言語モデルを使用する場合、入力プロンプトに文字数制限があるこ...
先週、深セン大学コンピュータサイエンスおよびソフトウェア工学部の Yu Shiqi 教授が、最大 1...
[[439859]]近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGP...
B2B ソフトウェアの営業およびマーケティング チームは、「人工知能 (AI)」という用語を好んで使...