マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか?

SenseTime の最新の自動運転モデルである DriveMLM は、閉ループテストの最も権威のあるリストである CARLA で SOTA 結果を達成しました。

実行スコアはベースラインの Apollo より 4.7 ポイント高く、従来のモジュール方式やエンドツーエンド方式はすべて比較にならないほど劣っています。

このモデルでは、画像、LIDAR 情報、交通ルール、さらには乗客のニーズを入力するだけで、車両を直接制御し、なぜこのように運転する必要があるのかを伝えてくれるような運転プランを提供できます。

これにより、運転ロジックが制御可能になり、プロセスが説明可能になるだけでなく、特殊で複雑な状況の解決も改善されます。

緊急車両に道を譲るなどでしょうか?小型ケース:

急いでいると言っていましたが、追い越しできますか？また、柔軟に対応することもできます (a は追い越し成功、b は車線が空いておらず追い越しが拒否される)。

あまり驚かないでくださいね〜

どのように実装されているかを確認するために論文を見てみましょう。

マルチモーダルLLMが自動運転の問題を解決

現在、自動運転システムには、モジュール型とエンドツーエンド型の 2 つの主なソリューションがあります。

名前が示すように、モジュール式ソリューションは、自動運転タスクを、認識、位置決め、調整と制御の 3 つのモジュールに分割します。各モジュールは独自のタスクを完了し、最終的に車両制御信号を出力します。

エンドツーエンドモデルは、知覚や測位など上記すべてのモジュールの機能を包含し、最終的に車両制御信号を出力する全体モデルです。

しかし、これら 2 つのソリューションにはそれぞれ欠点があります。

モジュラーソリューションのアルゴリズムは専門知識に依存しており、すべてのルールを手書きで事前に定義する必要があります。実際の運転シナリオで事前にシステムを書き込んでいないと、システム障害が発生する可能性が高くなります。例えば、救急車や消防車など交通ルールを守らない車両は、自動運転システムに任せてしまうと簡単にミスを犯してしまう可能性があります。

エンドツーエンドのソリューションはデータ駆動型に依存しています。大量の実際の運転データに依存してシステム機能の反復を継続的に駆動できますが、入力データに対する要件も非常に高く、大量のラベル付きデータが必要になるため、システムのトレーニングと反復のコストが必然的に増加します。

同時に、現在まで、エンドツーエンドソリューションのニューラルネットワークは依然として「ブラックボックス」であり、意思決定と計画はすべてシステム内で完了しており、説明可能性に欠けています。問題が発生した場合、モジュール式ソリューションの場合のように、どの部分に問題があるのかを突き止めるのは困難です。

エンドツーエンドのソリューションの解釈可能性を高めるために、近年の多くの研究では、大規模言語モデル (LLM) を自動運転システムに導入しています。ただし、LLM の出力は主に言語であり、車両制御にさらに使用できないという欠点があります。

これに対し、SenseTimeは、既存の自動運転システム行動計画モジュールの決定状態と一致し、閉ループテストで車両を制御できるDriveMLMモデルを提案し、従来のエンドツーエンドおよびルールベースの自動運転システム方式を上回りました。

与えられた画像に基づいて軌道を予測するオープンループテストと比較して、クローズドループテストは実際の環境とシナリオをシミュレートでき、実際の運転効果に近くなります。

具体的には、その全体的な枠組みを図に示します。

まず、LLM の言語決定出力を、成熟したモジュールソリューション内の規制および制御部分の決定ステータスと一致させ、LLM によって出力された言語信号を車両制御信号に変換できるようにします。

次に、DriveMLM の MLLM プランナーモジュールは、マルチモーダルトークナイザーと MLLM デコーダーの 2 つの部分で構成されています。

前者は、カメラ、LIDAR、ユーザー言語要件、交通ルールなどのさまざまな入力を統一されたトークン埋め込みに変換する役割を担い、後者、つまり MLLM デコーダーは、ここで生成されたトークンに基づいて、画像の説明、運転の決定、および決定の説明を生成します。

DriveMLM は、280 時間の運転データ (50,000 ルート、さまざまな天候や照明条件の 30 のシナリオ) に基づいてトレーニングされています。

このデータはすべて、現在自動運転の分野で最も広く使用されているオープンソースのシミュレーションツールおよびクローズドループテストベンチマークである CARLA シミュレーターから収集されます。

形式は次のとおりです。各フレームには、対応する画像の説明、運転の決定、決定の説明の 3 つの部分が含まれます。

△データケース

既存の自動運転データと比較すると、DriveMLM のデータは 2 つの点で異なります。

まず、決定部分を実際の行動決定モジュールと調整できるため、MLLMプランナーの出力を制御信号に変換して、閉ループ運転で車両を直接制御することが容易になります。

2 つ目は、人間とのインタラクションデータが含まれるため、システムが人間の指示を理解して応答する能力が向上することです。

では、上記のすべての実装に基づいて、DriveMLM の具体的な効果は何でしょうか?

実際に実行でき、説明可能

まず、業界の他の運転方法と比較して、DriveMLM はクローズドループテストで SOTA 結果を達成します。

CARLA で広く使用されている Town05Long ベンチマークでは、その運転スコアとルート完了は、Apollo などの非大規模モデル手法よりも大幅に高くなっています。

唯一僅差で負けたのは違反スコアでしたが、アポロとほぼ同じでした。

これは、DriveMLM が交通規制を遵守しながら、より良い決定を下すことができることを示唆しています。

さらに、DriveMLM (Miles Per Intervention) は MPI 指標でもかなりのリードを持っており、同じ走行距離内での手動による引き継ぎが少なく、より信頼性が高いことを示しています。

以下のデモから、DriveMLM が未知の障害物の回避など、さまざまな複雑な状況に対処できることがわかります。

たとえば、緊急車両に道を譲るには:

特に注目すべきは、大型モデルの自然言語処理能力によって、より人間味が増している点です。言語指示を通じて、人間の乗客の特別なニーズにも対応でき、MLLM プランナーの決定をさらに変えることができます。

例えば、「急いでいるから、もっとスピードを出してくれないかな？」と聞かれても、実際の道路状況に合わせて柔軟に対応してくれます。追い越せるときは追い越し、無理なときは断るなど、かなり「思いやり」があります。

第二に、GPT-4V などの他の大規模なマルチモーダルモデルと比較して、DriveMLM のパフォーマンスも優れており、決定精度が高く、説明も合理的です。

下の図に示すように、GPT-4V は多くのことを説明しましたが、赤信号 (a) / 前方の車両 (b) を認識できず、間違った提案をしました。一方、DriveMLM は両方のシナリオでシンプルでわかりやすく、正しい運転方法を示しました。

最後に、DriveMLM は、実際の運転シナリオ (nuScenes 検証セットに基づく) でゼロショット機能も実証しました。

下の図に示すように、DriveMLM は実際の環境で赤信号を認識して停止したり (左)、実際の交差点の位置を推測して事前に減速したり (右) することができます。

一般的に、上記のテストは、マルチモーダル大規模モデルの機能の助けを借りて、SenseTime が提案する DriveMLM が実際にインテリジェント運転に大きな可能性を示したことを証明しています。

一連の従来の方法と比較すると、その最大の利点と価値は主に次の 3 つの側面にあります。

まず、一貫した意思決定指示設定により、DriveMLM は既存のモジュール式 AD システム (Apollo など) に直接接続できるため、大きな変更を加えることなく閉ループ運転を実現し、実際に車を走らせることができます。

2 番目に、自然言語コマンドを直接入力して、乗客のニーズや高レベルのシステムメッセージを伝え、モデルに処理させることができます。

このようにして、自動運転システムは、より多様で高度な運転シナリオに適応することができます。

3 番目に、ビッグモデルに基づいて、結果を出力するだけでなく、論理的推論プロセスの特性も示します。DriveMLM によって実行されるすべてのアクションと選択には、その理由を説明する詳細な説明が続きます。

言うまでもなく、説明可能性と安全性の間には強い相関関係があります。DriveMLM の高い説明可能性は、より安全で透明性の高い自動運転システムを継続的に開発するのに役立ちます。

自動運転の未来は大きなモデルにかかっている

自動運転には間違いなく ChatGPT の時代が来ると信じる人もおり、早ければ今年中にも実現するかもしれません。

どうやって到着しますか？

業界では一般的に大型モデルに注目が集まっています。

センスタイムの共同創設者兼主任科学者である王暁剛氏は最近、次のように意見を述べた。

今後1～2年は、スマートカーにおける重要な進歩が起こる時期となるでしょう。
エンドツーエンドのデータ駆動型自動運転であれ、インテリジェントコックピットブレインであれ、それらは大規模なモデルに基づいているでしょう。

彼は次のように指摘した。「インテリジェント運転の面では、このビッグモデルは、知覚、融合、位置決め、意思決定、調整、制御などの一連のモジュールの機能を網羅し、接続し、さまざまなコーナーケースを真に解決します。」

センスタイムの今回の成果は、大規模モデル、特に複数の種類のデータを処理できるマルチモーダル LLM を使用して意思決定を行うことで、自動運転機能を大幅に向上できることを示しています。

最も重要なことは、自動運転システムが人間に近づき、一定レベルの常識を持ち、運転環境とルールを適切に理解できることです。

そのため、システムは手書きのルールへの依存から解放され、前述の前方の道路の曲がり角や事前の減速の必要性など、これまで遭遇したことのない運転シナリオに遭遇した場合、システムが自動的に対処することができます。

これまでのセンサーデータに加え、人間の言語入力も車両制御プロセスに参加できます。システムは意図を理解し、実際の状況に基づいて運転の決定を下すことができます。

実際、大規模なモデルを自動運転に適用することに関しては、SenseTime DriveMLM は業界の前例ではありません。

しかし、ビッグモデルを運転判断に適用する業界初のソリューションとして、車両の実際の制御を実現し、車両側でのエンドツーエンドのソリューションの構築を容易にします。ビッグモデルという新しいソリューションの大きな可能性を見ることができるので、注目する価値があります。

また、センスタイムといえば、自動運転の経験も持っています。

つい最近、彼らの自動運転のための統合知覚および意思決定の汎用大規模モデルが、CVPR 2023「計画指向の自動運転」の最優秀論文に選ばれました。DriveMLMはこの成果に基づくフォローアップ研究です。

最後に、DriveMLM が実際に量産車両に搭載される日が待ち遠しいです。

それで、このビッグモデルの新しいソリューションは有望だと思いますか?まだ取り組む必要がある課題は何だと思いますか?

<<: 賈陽青の新たな起業：AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

>>: OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

マルチモーダルLLMが自動運転の問題を解決

△データケース

実際に実行でき、説明可能

自動運転の未来は大きなモデルにかかっている

MySQL: データ構造とアルゴリズムの原則

アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

マイクロソフトはAIを活用して新しい電池材料を選別し、電池のリチウムの70%をナトリウムに置き換える

写真とテキストで、3ステップで『原神』原稿がすぐに作れる！最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

蔡子星院士：オープンソースは人工知能開発の新たなトレンド

強化学習とゲーム理論を活用して、EAのテストAIは賢いものになった

彼はボストンダイナミクスのロボット犬を使って人力車を引いているのです！ネットユーザー：これは私が今まで見た中で最もスチームパンクなものだ

Google はなぜいつも AI に芸術を強制するのでしょうか?

猿人歩行からAIまで：三次元戦略で一人ひとりに寄り添う「真のセキュリティ」

新しい消費者向け IoT と人工知能の開発を加速させる機会は何でしょうか?

推薦する

独占インタビュー | 独立系開発者 Li Xiaoyu: AI ツールを使用して作業効率を向上

Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

データサイエンティスト向けの自動化された機械学習ライブラリ 20 選

AIはITに顧客体験の向上における優位性を与える

AIが人間の翻訳者に取って代わり、有名なテクノロジーウェブサイトは13歳の従業員まで解雇し、ウェブサイトはすべてAIによって制作されている

欧州宇宙機関が初のAI衛星を打ち上げ、AIチップ＋アルゴリズムで雲画像をフィルタリング

YOLOはまだ死んでいません！ YOLOv9がリリースされました：パフォーマンスと速度SOTA〜

iPhoneのトランスフォーマーを公開: GPT-2アーキテクチャをベースにした単語セグメンターには、MITの卒業生が制作した絵文字が含まれています。

AI はなぜこれほど普及しているのに、実装が難しいのでしょうか?

機械学習アルゴリズムの実践: ナイーブベイズ

「アルゴリズム」の混乱にどう向き合うか？