DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 DriveLM では、自動運転 (AD) に大規模言語モデルの推論機能を導入し、意思決定を行い、説明可能な計画を確実に実行します。 DriveLM データセットでは、人間が書いた推論ロジックが、認識、予測、計画 (P3) を容易にするための接続として使用されます。私たちのモデルでは、より良い計画結果を生み出すために、マインドマップ機能を備えた AD 視覚言語モデルを提案します。現在、データセットのデモが公開されており、完全なデータセットとモデルは将来的に公開される予定です。 プロジェクトリンク: https://github.com/OpenDriveLab/DriveLM AD における思考グラフとは何ですか?データセットの最も興味深い点は、P3 の質問応答 (QA) がグラフ形式の構造で接続されており、各ノードとして QA ペア、エッジとしてオブジェクト関係が使用されていることです。 私たちは、純粋に言語的な思考ツリーやマインドマップよりも、マルチモーダル性を好みます。これを AD ドメインで実行する理由は、生のセンサー入力から最終的な制御アクションまでの各段階で AD タスクが定義されるためです。 DriveLM データセットには何が含まれていますか?私たちは、主流の nuScenes データセットに基づいてデータセットを構築します。 DriveLM の中核要素は、フレームベースの P3 QA です。知覚の問題では、モデルがシーン内のオブジェクトを認識する必要があります。予測問題では、シーン内の重要なオブジェクトの将来の状態を予測するモデルが必要です。計画問題は、モデルに合理的に計画されたアクションを与え、危険なアクションを回避するように強制します。 キャリブレーションのプロセスはどうなっていますか?
|
>>: 不確実な環境で自動運転を実現するにはどうすればよいでしょうか?
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...
「データ カタログ」という概念は、実は新しいものではありません。メインフレームの時代から、企業はデー...
翻訳者|朱 仙中レビュー | Chonglou複雑さを乗り越える: 医療における患者数の予測医療にお...
Google が携帯電話向けの初の音声人工知能製品を発表してから 5 か月後、同社は Apple の...
人工知能は人間が認識するのが難しい決定を下すでしょう。意思決定を行うには、アルゴリズムが大量のデータ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[429116]]最近、福島邦彦氏が2021年度バウアー賞および科学業績賞を受賞したというニュース...
Transforma Insights では、2020 年の大半を、最も優れた詳細な IoT 予測の...
一見退屈で冷淡なアルゴリズムは、継続的な反復とアップグレードを経て、外界を認識でき、人間の意思決定を...
規制は消費者と市場を保護するために導入されていますが、多くの場合、規制は複雑で、コストがかかり、遵守...
[[441702]]時は経つのが早く、2021年も過ぎ去りつつあります。今年を振り返ると、疫病の影響...