マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか?

SenseTime の最新の自動運転モデル​​である DriveMLM は、閉ループ テストの最も権威のあるリストである CARLA で SOTA 結果を達成しました。

実行スコアはベースラインの Apollo より 4.7 ポイント高く、従来のモジュール方式やエンドツーエンド方式はすべて比較にならないほど劣っています。

このモデルでは、画像、LIDAR 情報、交通ルール、さらには乗客のニーズを入力するだけで、車両を直接制御し、なぜこのように運転する必要があるのか​​を伝えてくれるような運転プランを提供できます。

これにより、運転ロジックが制御可能になり、プロセスが説明可能になるだけでなく、特殊で複雑な状況の解決も改善されます。

緊急車両に道を譲るなどでしょうか?小型ケース:

急いでいると言っていましたが、追い越しできますか?また、柔軟に対応することもできます (a は追い越し成功、b は車線が空いておらず追い越しが拒否される)。

あまり驚かないでくださいね〜

どのように実装されているかを確認するために論文を見てみましょう。

マルチモーダルLLMが自動運転の問題を解決

現在、自動運転システムには、モジュール型とエンドツーエンド型の 2 つの主なソリューションがあります。

名前が示すように、モジュール式ソリューションは、自動運転タスクを、認識、位置決め、調整と制御の 3 つのモジュールに分割します。各モジュールは独自のタスクを完了し、最終的に車両制御信号を出力します。

エンドツーエンドモデルは、知覚や測位など上記すべてのモジュールの機能を包含し、最終的に車両制御信号を出力する全体モデルです。

しかし、これら 2 つのソリューションにはそれぞれ欠点があります。

モジュラーソリューションのアルゴリズムは専門知識に依存しており、すべてのルールを手書きで事前に定義する必要があります。実際の運転シナリオで事前にシステムを書き込んでいないと、システム障害が発生する可能性が高くなります。例えば、救急車や消防車など交通ルールを守らない車両は、自動運転システムに任せてしまうと簡単にミスを犯してしまう可能性があります。

エンドツーエンドのソリューションはデータ駆動型に依存しています。大量の実際の運転データに依存してシステム機能の反復を継続的に駆動できますが、入力データに対する要件も非常に高く、大量のラベル付きデータが必要になるため、システムのトレーニングと反復のコストが必然的に増加します。

同時に、現在まで、エンドツーエンドソリューションのニューラルネットワークは依然として「ブラックボックス」であり、意思決定と計画はすべてシステム内で完了しており、説明可能性に欠けています。問題が発生した場合、モジュール式ソリューションの場合のように、どの部分に問題があるのか​​を突き止めるのは困難です。

エンドツーエンドのソリューションの解釈可能性を高めるために、近年の多くの研究では、大規模言語モデル (LLM) を自動運転システムに導入しています。ただし、LLM の出力は主に言語であり、車両制御にさらに使用できないという欠点があります。

これに対し、SenseTimeは、既存の自動運転システム行動計画モジュールの決定状態と一致し、閉ループテストで車両を制御できるDriveMLMモデルを提案し、従来のエンドツーエンドおよびルールベースの自動運転システム方式を上回りました。

与えられた画像に基づいて軌道を予測するオープンループテストと比較して、クローズドループテストは実際の環境とシナリオをシミュレートでき、実際の運転効果に近くなります。

具体的には、その全体的な枠組みを図に示します。

まず、LLM の言語決定出力を、成熟したモジュール ソリューション内の規制および制御部分の決定ステータスと一致させ、LLM によって出力された言語信号を車両制御信号に変換できるようにします。

次に、DriveMLM の MLLM プランナー モジュールは、マルチモーダル トークナイザーと MLLM デコーダーの 2 つの部分で構成されています。

前者は、カメラ、LIDAR、ユーザー言語要件、交通ルールなどのさまざまな入力を統一されたトークン埋め込みに変換する役割を担い、後者、つまり MLLM デコーダーは、ここで生成されたトークンに基づいて、画像の説明、運転の決定、および決定の説明を生成します。

DriveMLM は、280 時間の運転データ (50,000 ルート、さまざまな天候や照明条件の 30 のシナリオ) に基づいてトレーニングされています。

このデータはすべて、現在自動運転の分野で最も広く使用されているオープンソースのシミュレーション ツールおよびクローズドループ テスト ベンチマークである CARLA シミュレーターから収集されます。

形式は次のとおりです。各フレームには、対応する画像の説明、運転の決定、決定の説明の 3 つの部分が含まれます。

△データケース

既存の自動運転データと比較すると、DriveMLM のデータは 2 つの点で異なります。

まず、決定部分を実際の行動決定モジュールと調整できるため、MLLMプランナーの出力を制御信号に変換して、閉ループ運転で車両を直接制御することが容易になります。

2 つ目は、人間とのインタラクション データが含まれるため、システムが人間の指示を理解して応答する能力が向上することです。

では、上記のすべての実装に基づいて、DriveMLM の具体的な効果は何でしょうか?

実際に実行でき、説明可能

まず、業界の他の運転方法と比較して、DriveMLM はクローズドループ テストで SOTA 結果を達成します。

CARLA で広く使用されている Town05Long ベンチマークでは、その運転スコアとルート完了は、Apollo などの非大規模モデル手法よりも大幅に高くなっています。

唯一僅差で負けたのは違反スコアでしたが、アポロとほぼ同じでした。

これは、DriveMLM が交通規制を遵守しながら、より良い決定を下すことができることを示唆しています。

さらに、DriveMLM (Miles Per Intervention) は MPI 指標でもかなりのリードを持っており、同じ走行距離内での手動による引き継ぎが少なく、より信頼性が高いことを示しています。

以下のデモから、DriveMLM が未知の障害物の回避など、さまざまな複雑な状況に対処できることがわかります。

たとえば、緊急車両に道を譲るには:

特に注目すべきは、大型モデルの自然言語処理能力によって、より人間味が増している点です。言語指示を通じて、人間の乗客の特別なニーズにも対応でき、MLLM プランナーの決定をさらに変えることができます。

例えば、「急いでいるから、もっとスピードを出してくれないかな?」と聞かれても、実際の道路状況に合わせて柔軟に対応してくれます。追い越せるときは追い越し、無理なときは断るなど、かなり「思いやり」があります。

第二に、GPT-4V などの他の大規模なマルチモーダル モデルと比較して、DriveMLM のパフォーマンスも優れており、決定精度が高く、説明も合理的です。

下の図に示すように、GPT-4V は多くのことを説明しましたが、赤信号 (a) / 前方の車両 (b) を認識できず、間違った提案をしました。一方、DriveMLM は両方のシナリオでシンプルでわかりやすく、正しい運転方法を示しました。

最後に、DriveMLM は、実際の運転シナリオ (nuScenes 検証セットに基づく) でゼロショット機能も実証しました。

下の図に示すように、DriveMLM は実際の環境で赤信号を認識して停止したり (左)、実際の交差点の位置を推測して事前に減速したり (右) することができます。

一般的に、上記のテストは、マルチモーダル大規模モデルの機能の助けを借りて、SenseTime が提案する DriveMLM が実際にインテリジェント運転に大きな可能性を示したことを証明しています。

一連の従来の方法と比較すると、その最大の利点と価値は主に次の 3 つの側面にあります。

まず、一貫した意思決定指示設定により、DriveMLM は既存のモジュール式 AD システム (Apollo など) に直接接続できるため、大きな変更を加えることなく閉ループ運転を実現し、実際に車を走らせることができます。

2 番目に、自然言語コマンドを直接入力して、乗客のニーズや高レベルのシステム メッセージを伝え、モデルに処理させることができます。

このようにして、自動運転システムは、より多様で高度な運転シナリオに適応することができます。

3 番目に、ビッグ モデルに基づいて、結果を出力するだけでなく、論理的推論プロセスの特性も示します。DriveMLM によって実行されるすべてのアクションと選択には、その理由を説明する詳細な説明が続きます。

言うまでもなく、説明可能性と安全性の間には強い相関関係があります。DriveMLM の高い説明可能性は、より安全で透明性の高い自動運転システムを継続的に開発するのに役立ちます。

自動運転の未来は大きなモデルにかかっている

自動運転には間違いなく ChatGPT の時代が来ると信じる人もおり、早ければ今年中にも実現するかもしれません。

どうやって到着しますか?

業界では一般的に大型モデルに注目が集まっています。

センスタイムの共同創設者兼主任科学者である王暁剛氏は最近、次のように意見を述べた。

今後1~2年は、スマートカーにおける重要な進歩が起こる時期となるでしょう。

エンドツーエンドのデータ駆動型自動運転であれ、インテリジェントコックピットブレインであれ、それらは大規模なモデルに基づいているでしょう。

彼は次のように指摘した。「インテリジェント運転の面では、このビッグモデルは、知覚、融合、位置決め、意思決定、調整、制御などの一連のモジュールの機能を網羅し、接続し、さまざまなコーナーケースを真に解決します。」

センスタイムの今回の成果は、大規模モデル、特に複数の種類のデータを処理できるマルチモーダル LLM を使用して意思決定を行うことで、自動運転機能を大幅に向上できることを示しています。

最も重要なことは、自動運転システムが人間に近づき、一定レベルの常識を持ち、運転環境とルールを適切に理解できることです。

そのため、システムは手書きのルールへの依存から解放され、前述の前方の道路の曲がり角や事前の減速の必要性など、これまで遭遇したことのない運転シナリオに遭遇した場合、システムが自動的に対処することができます。

これまでのセンサーデータに加え、人間の言語入力も車両制御プロセスに参加できます。システムは意図を理解し、実際の状況に基づいて運転の決定を下すことができます。

実際、大規模なモデルを自動運転に適用することに関しては、SenseTime DriveMLM は業界の前例ではありません。

しかし、ビッグモデルを運転判断に適用する業界初のソリューションとして、車両の実際の制御を実現し、車両側でのエンドツーエンドのソリューションの構築を容易にします。ビッグモデルという新しいソリューションの大きな可能性を見ることができるので、注目する価値があります。

また、センスタイムといえば、自動運転の経験も持っています。

つい最近、彼らの自動運転のための統合知覚および意思決定の汎用大規模モデルが、CVPR 2023「計画指向の自動運転」の最優秀論文に選ばれました。DriveMLMはこの成果に基づくフォローアップ研究です。

最後に、DriveMLM が実際に量産車両に搭載される日が待ち遠しいです。

それで、このビッグモデルの新しいソリューションは有望だと思いますか?まだ取り組む必要がある課題は何だと思いますか?

<<:  賈陽青の新たな起業:AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

>>:  OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

ブログ    
ブログ    

推薦する

AIの「不確実な時代」にどう向き合うか

AIの拡大する影響私たちの日常生活における AI の影響はますます明らかになってきています。 AI ...

機械学習を利用してデータベースの運用と保守の問題を解決します

著者についてPing An Technology のデータベース チームの運用保守開発エンジニアであ...

ChatGPT文明がオンラインになりました!ワンクリックで明代の南京と中世イタリアを旅しよう

ChatGPT がリリースされてから、宿題をするために ChatGPT を使い始める学生が増えてきま...

人工知能のもう一つの方向性:メモリスタに基づくストレージおよびコンピューティング技術

[[325184]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

自動運転の倫理的ジレンマを解決する: 道徳規範を数式に変換する

暴走列車が線路を走っています。5人が線路に縛られており、列車に轢かれそうになっています。この時点で、...

2024 年の 6 つの主要なテクノロジー トレンドを見据えて、最もホットなテクノロジーをご紹介します。

物事の誕生は突然かつ急速です。変化せずに動くものはなく、移行せずに動くものもありません。技術革新のス...

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

「10人のチームを持ち、年間売上高が1億ドルを超えるスタートアップ」を輩出する道として、文芸グラフィ...

機械学習:教師あり学習と教師なし学習の違いは何ですか?

機械学習は、例と経験を通じてコン​​ピューターにタスクの実行を教える人工知能のサブセットであり、研究...

コード不要で再利用可能な AI が AI の溝を埋める方法

著者: ミシェル・ゾウ翻訳:李睿企画丨孫淑娊[51CTO.com クイック翻訳]事前に構築された A...

...

「AI+コンピューティングパワー」が海外企業に「活力」を与えた

海外に進出する企業は、さまざまな市場のニーズをより正確に理解し、適応するために、大量の国境を越えたデ...

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...

AWS は、機械学習の経験がなくても、企業の日常業務を改革し改善する 5 つの新しい機械学習サービスを開始しました。

Amazon Kendra は、自然言語処理やその他の機械学習技術を使用してエンタープライズ検索を...

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの中国人研究者7名に...