マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか?

SenseTime の最新の自動運転モデル​​である DriveMLM は、閉ループ テストの最も権威のあるリストである CARLA で SOTA 結果を達成しました。

実行スコアはベースラインの Apollo より 4.7 ポイント高く、従来のモジュール方式やエンドツーエンド方式はすべて比較にならないほど劣っています。

このモデルでは、画像、LIDAR 情報、交通ルール、さらには乗客のニーズを入力するだけで、車両を直接制御し、なぜこのように運転する必要があるのか​​を伝えてくれるような運転プランを提供できます。

これにより、運転ロジックが制御可能になり、プロセスが説明可能になるだけでなく、特殊で複雑な状況の解決も改善されます。

緊急車両に道を譲るなどでしょうか?小型ケース:

急いでいると言っていましたが、追い越しできますか?また、柔軟に対応することもできます (a は追い越し成功、b は車線が空いておらず追い越しが拒否される)。

あまり驚かないでくださいね〜

どのように実装されているかを確認するために論文を見てみましょう。

マルチモーダルLLMが自動運転の問題を解決

現在、自動運転システムには、モジュール型とエンドツーエンド型の 2 つの主なソリューションがあります。

名前が示すように、モジュール式ソリューションは、自動運転タスクを、認識、位置決め、調整と制御の 3 つのモジュールに分割します。各モジュールは独自のタスクを完了し、最終的に車両制御信号を出力します。

エンドツーエンドモデルは、知覚や測位など上記すべてのモジュールの機能を包含し、最終的に車両制御信号を出力する全体モデルです。

しかし、これら 2 つのソリューションにはそれぞれ欠点があります。

モジュラーソリューションのアルゴリズムは専門知識に依存しており、すべてのルールを手書きで事前に定義する必要があります。実際の運転シナリオで事前にシステムを書き込んでいないと、システム障害が発生する可能性が高くなります。例えば、救急車や消防車など交通ルールを守らない車両は、自動運転システムに任せてしまうと簡単にミスを犯してしまう可能性があります。

エンドツーエンドのソリューションはデータ駆動型に依存しています。大量の実際の運転データに依存してシステム機能の反復を継続的に駆動できますが、入力データに対する要件も非常に高く、大量のラベル付きデータが必要になるため、システムのトレーニングと反復のコストが必然的に増加します。

同時に、現在まで、エンドツーエンドソリューションのニューラルネットワークは依然として「ブラックボックス」であり、意思決定と計画はすべてシステム内で完了しており、説明可能性に欠けています。問題が発生した場合、モジュール式ソリューションの場合のように、どの部分に問題があるのか​​を突き止めるのは困難です。

エンドツーエンドのソリューションの解釈可能性を高めるために、近年の多くの研究では、大規模言語モデル (LLM) を自動運転システムに導入しています。ただし、LLM の出力は主に言語であり、車両制御にさらに使用できないという欠点があります。

これに対し、SenseTimeは、既存の自動運転システム行動計画モジュールの決定状態と一致し、閉ループテストで車両を制御できるDriveMLMモデルを提案し、従来のエンドツーエンドおよびルールベースの自動運転システム方式を上回りました。

与えられた画像に基づいて軌道を予測するオープンループテストと比較して、クローズドループテストは実際の環境とシナリオをシミュレートでき、実際の運転効果に近くなります。

具体的には、その全体的な枠組みを図に示します。

まず、LLM の言語決定出力を、成熟したモジュール ソリューション内の規制および制御部分の決定ステータスと一致させ、LLM によって出力された言語信号を車両制御信号に変換できるようにします。

次に、DriveMLM の MLLM プランナー モジュールは、マルチモーダル トークナイザーと MLLM デコーダーの 2 つの部分で構成されています。

前者は、カメラ、LIDAR、ユーザー言語要件、交通ルールなどのさまざまな入力を統一されたトークン埋め込みに変換する役割を担い、後者、つまり MLLM デコーダーは、ここで生成されたトークンに基づいて、画像の説明、運転の決定、および決定の説明を生成します。

DriveMLM は、280 時間の運転データ (50,000 ルート、さまざまな天候や照明条件の 30 のシナリオ) に基づいてトレーニングされています。

このデータはすべて、現在自動運転の分野で最も広く使用されているオープンソースのシミュレーション ツールおよびクローズドループ テスト ベンチマークである CARLA シミュレーターから収集されます。

形式は次のとおりです。各フレームには、対応する画像の説明、運転の決定、決定の説明の 3 つの部分が含まれます。

△データケース

既存の自動運転データと比較すると、DriveMLM のデータは 2 つの点で異なります。

まず、決定部分を実際の行動決定モジュールと調整できるため、MLLMプランナーの出力を制御信号に変換して、閉ループ運転で車両を直接制御することが容易になります。

2 つ目は、人間とのインタラクション データが含まれるため、システムが人間の指示を理解して応答する能力が向上することです。

では、上記のすべての実装に基づいて、DriveMLM の具体的な効果は何でしょうか?

実際に実行でき、説明可能

まず、業界の他の運転方法と比較して、DriveMLM はクローズドループ テストで SOTA 結果を達成します。

CARLA で広く使用されている Town05Long ベンチマークでは、その運転スコアとルート完了は、Apollo などの非大規模モデル手法よりも大幅に高くなっています。

唯一僅差で負けたのは違反スコアでしたが、アポロとほぼ同じでした。

これは、DriveMLM が交通規制を遵守しながら、より良い決定を下すことができることを示唆しています。

さらに、DriveMLM (Miles Per Intervention) は MPI 指標でもかなりのリードを持っており、同じ走行距離内での手動による引き継ぎが少なく、より信頼性が高いことを示しています。

以下のデモから、DriveMLM が未知の障害物の回避など、さまざまな複雑な状況に対処できることがわかります。

たとえば、緊急車両に道を譲るには:

特に注目すべきは、大型モデルの自然言語処理能力によって、より人間味が増している点です。言語指示を通じて、人間の乗客の特別なニーズにも対応でき、MLLM プランナーの決定をさらに変えることができます。

例えば、「急いでいるから、もっとスピードを出してくれないかな?」と聞かれても、実際の道路状況に合わせて柔軟に対応してくれます。追い越せるときは追い越し、無理なときは断るなど、かなり「思いやり」があります。

第二に、GPT-4V などの他の大規模なマルチモーダル モデルと比較して、DriveMLM のパフォーマンスも優れており、決定精度が高く、説明も合理的です。

下の図に示すように、GPT-4V は多くのことを説明しましたが、赤信号 (a) / 前方の車両 (b) を認識できず、間違った提案をしました。一方、DriveMLM は両方のシナリオでシンプルでわかりやすく、正しい運転方法を示しました。

最後に、DriveMLM は、実際の運転シナリオ (nuScenes 検証セットに基づく) でゼロショット機能も実証しました。

下の図に示すように、DriveMLM は実際の環境で赤信号を認識して停止したり (左)、実際の交差点の位置を推測して事前に減速したり (右) することができます。

一般的に、上記のテストは、マルチモーダル大規模モデルの機能の助けを借りて、SenseTime が提案する DriveMLM が実際にインテリジェント運転に大きな可能性を示したことを証明しています。

一連の従来の方法と比較すると、その最大の利点と価値は主に次の 3 つの側面にあります。

まず、一貫した意思決定指示設定により、DriveMLM は既存のモジュール式 AD システム (Apollo など) に直接接続できるため、大きな変更を加えることなく閉ループ運転を実現し、実際に車を走らせることができます。

2 番目に、自然言語コマンドを直接入力して、乗客のニーズや高レベルのシステム メッセージを伝え、モデルに処理させることができます。

このようにして、自動運転システムは、より多様で高度な運転シナリオに適応することができます。

3 番目に、ビッグ モデルに基づいて、結果を出力するだけでなく、論理的推論プロセスの特性も示します。DriveMLM によって実行されるすべてのアクションと選択には、その理由を説明する詳細な説明が続きます。

言うまでもなく、説明可能性と安全性の間には強い相関関係があります。DriveMLM の高い説明可能性は、より安全で透明性の高い自動運転システムを継続的に開発するのに役立ちます。

自動運転の未来は大きなモデルにかかっている

自動運転には間違いなく ChatGPT の時代が来ると信じる人もおり、早ければ今年中にも実現するかもしれません。

どうやって到着しますか?

業界では一般的に大型モデルに注目が集まっています。

センスタイムの共同創設者兼主任科学者である王暁剛氏は最近、次のように意見を述べた。

今後1~2年は、スマートカーにおける重要な進歩が起こる時期となるでしょう。

エンドツーエンドのデータ駆動型自動運転であれ、インテリジェントコックピットブレインであれ、それらは大規模なモデルに基づいているでしょう。

彼は次のように指摘した。「インテリジェント運転の面では、このビッグモデルは、知覚、融合、位置決め、意思決定、調整、制御などの一連のモジュールの機能を網羅し、接続し、さまざまなコーナーケースを真に解決します。」

センスタイムの今回の成果は、大規模モデル、特に複数の種類のデータを処理できるマルチモーダル LLM を使用して意思決定を行うことで、自動運転機能を大幅に向上できることを示しています。

最も重要なことは、自動運転システムが人間に近づき、一定レベルの常識を持ち、運転環境とルールを適切に理解できることです。

そのため、システムは手書きのルールへの依存から解放され、前述の前方の道路の曲がり角や事前の減速の必要性など、これまで遭遇したことのない運転シナリオに遭遇した場合、システムが自動的に対処することができます。

これまでのセンサーデータに加え、人間の言語入力も車両制御プロセスに参加できます。システムは意図を理解し、実際の状況に基づいて運転の決定を下すことができます。

実際、大規模なモデルを自動運転に適用することに関しては、SenseTime DriveMLM は業界の前例ではありません。

しかし、ビッグモデルを運転判断に適用する業界初のソリューションとして、車両の実際の制御を実現し、車両側でのエンドツーエンドのソリューションの構築を容易にします。ビッグモデルという新しいソリューションの大きな可能性を見ることができるので、注目する価値があります。

また、センスタイムといえば、自動運転の経験も持っています。

つい最近、彼らの自動運転のための統合知覚および意思決定の汎用大規模モデルが、CVPR 2023「計画指向の自動運転」の最優秀論文に選ばれました。DriveMLMはこの成果に基づくフォローアップ研究です。

最後に、DriveMLM が実際に量産車両に搭載される日が待ち遠しいです。

それで、このビッグモデルの新しいソリューションは有望だと思いますか?まだ取り組む必要がある課題は何だと思いますか?

<<:  賈陽青の新たな起業:AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

>>:  OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

推薦する

2024年はテクノロジー企業の終焉となるでしょうか?報告書:3年後には技術の80%が素人によって提供される

[[405703]]最近、アメリカの有名なテクノロジー調査・コンサルティング会社であるガートナーは、...

GPU の無駄遣いをやめよう: FlashAttention がアップグレードされ、長いテキストの推論速度が 8 倍に向上

最近、ChatGPT や Llama のような大規模言語モデル (LLM) がかつてない注目を集めて...

自動運転の倫理的ジレンマを解決する: 道徳規範を数式に変換する

暴走列車が線路を走っています。5人が線路に縛られており、列車に轢かれそうになっています。この時点で、...

IT リーダーにとって必須のコース: 人工知能のビジネスへの影響と価値をどのように測定するか?

実績のある AI プロジェクトが大規模に導入されるケースが増えており、一部の企業では大きなメリットが...

SMOTE アルゴリズムを使用せずに、マルチクラスの不均衡なデータをどのように処理できますか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表

Google AI は TensorFlow 3D をリリースしました。これは TensorFlow...

「一歩ずつ考えよう」というマントラよりも効果的で、プロジェクトが改善されていることを示す

大規模言語モデル (LLM) は、適切なプロンプトがあれば、多くの自然言語処理タスクにとって強力なツ...

5GとAIの相互影響

技術革新に関しては、私たちは転換点に達したようです。過去 5 年間で、私たちは、アイデアの創出から会...

清華大学とアイデアルは、自動運転機能を向上させる視覚言語モデルDriveVLMを提案した。

生成AIと比較して、自動運転も近年AIの研究開発が最も活発に行われている分野の1つです。完全自動運転...

年収100万のAI関連職種4つ

ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...

...

AI天気予報には依然として人間の介入が必要

業界では、デート、マーケティング、ソーシャルメディアから宇宙探査、医療の進歩に至るまで、人工知能とそ...

プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ディープラーニングにおける正規化の概要(Python コード付き)

編集者注: 日々の仕事や研究において、データ サイエンティストが遭遇する最も一般的な問題の 1 つは...