具現化された知能の新時代! VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

具現化された知能の新時代! VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物理世界と対話することはできません。

視覚-言語-行動 (VLA) モデルは、視覚刺激、言語入力、およびその他の環境関連データを認識でき、物理環境とデジタル環境で意味のある「具体化された行動」を生成して特定のタスクを完了できる自律エージェントです。

写真

2 次元のデジタル世界と 3 次元の物理世界の違いにより、既存の VLA モデルでは通常タスクが単純化され、マルチモーダル理解能力が弱くなり、タスクやドメイン全体にわたる一般化能力が不十分になります。

マイクロソフト、メリーランド大学、ウィスコンシン大学マディソン校、韓国科学技術院、ワシントン大学の研究者らは、マルチモーダル理解と行動予測を備えた基本的なインテリジェントエージェントモデル「マグマ」を開発した。視覚言語モデルの言語理解能力(言語知能)を保持するだけでなく、視覚空間世界で計画し行動する能力(時空間知能)も備え、ユーザーインターフェース(UI)ナビゲーションからロボット操作まで、さまざまなインテリジェントエージェントタスクを完了することができる。

写真

論文リンク: https://arxiv.org/pdf/2502.13130

コードリンク: https://microsoft.github.io/Magma

Magma に機能を与えるために、研究者は大量の画像、ビデオ、ロボットデータセットを使用して事前トレーニングを行いました。

画像では、アクション可能な視覚オブジェクト (ユーザー インターフェイス内のクリック可能なボタンなど) に「Set-of-Mark」(SoM) を使用して注釈が付けられ、アクションの場所を特定できるようになります。

ビデオでは、オブジェクトの動き(人間の手やロボットアームの動きの軌跡など)に「Trace-of-Mark」(ToM)を使用して注釈が付けられ、アクション計画をサポートします。

写真

実験結果では、SoM と ToM の良好な相乗効果が実証されており、Magma は UI ナビゲーションとロボット操作タスクで最高のパフォーマンス記録を達成し、画像やビデオ関連のマルチモーダルタスクでは他の一般的に使用されるマルチモーダルモデルよりも優れたパフォーマンスを発揮しました。

マルチモーダルエージェントモデリング

問題の定義

一般的なマルチモーダルAIエージェントπは、過去の視覚的観測L={I1, ..., Ik}とテキストによるタスク記述を入力として受け取り、少なくともT≥1個のトークンのセットOを出力し、マルチモーダル理解とアクション実行を同時に実行することができます。

写真

そのうち、ctxは文脈であり、l∈{verbal, spatial}はi番目のトークンが言語トークンか空間トークンかを示す。

2D スクリーンショットの UI ナビゲーション タスク: 「ホテルを予約する」タスクの場合、エージェントの出力には、アクションのセマンティック タイプ (入力、クリックなど) と、アクションが適用される特定の場所 (x、y) または四角形 (x、y、w、h) を表す言語トークンが含まれている必要があります。

3D の世界におけるロボット操作タスク: 「引き出しを閉める」タスクの場合、エージェントの出力には、エンド エフェクタの 6 自由度 (6-DoF) の変位 (x、y、z、ヨー、ピッチ、ロール) と、グリッパーが開いているか閉じているかを示す追加の次元が含まれます。

マルチモーダル理解タスク: 視覚的質問応答 (VQA) タスクなど、タスクが入力画像 L にのみ関連している場合、問題は「入力画像/ビデオのテキスト説明」または「ターゲットの場所」を生成することに簡略化されます。

タスクの出力形式は異なっているように見えますが、研究者は通常、モデルの学習を容易にするためにすべての出力をテキスト トークンに変換します。

方法

研究者らは、「Set-of-Mark、SoM」と「Trace-of-Mark、ToM」を組み合わせてモデルを空間予測タスク(クリック可能なボタン)と時間次元に拡張し、2つの普遍的な問題を解決するシンプルで効果的な方法を提案しました。

1) 共同トレーニングを実現するための統一された事前トレーニング インターフェースを構築するにはどうすればよいでしょうか?

2) 既存の視覚言語行動データは量と多様性が限られており、モデルをスケールアップするのに十分なデータがありません。

マーカーセット(SoM)に基づくアクションローカリゼーション

「ラベル付きセット」プロンプト方式は、もともと GPT-4V の視覚的ローカリゼーション機能を強化するために提案されましたが、これまでの研究では主に SoM を使用して、既製の大規模マルチモーダル モデル (LMM) の視覚的言語ローカリゼーション機能を強化していました。研究者らは、SoM を使用してインテリジェント エージェント モデルをトレーニングし、特定のタスクで操作可能なポイントまたは領域を特定し、必要に応じて基本的なアクションをさらに予測することを提案しました。

時間ステップtで、エージェントがサイズがH×W×3(つまり、高さ、幅、および色チャネル)の画像Itを観察し、エージェントの入力にタスクの説明とコンテキスト情報も含まれているとします。

写真

まず、画像から操作可能な候補領域または点のセット P = {p1、...、pK} が抽出されます。ここで、各点 pk は、4 次元の長方形ボックス座標 (x、y、w、h など) または 2 次元の点座標 (x、y) になります。次に、マーカーと長方形ボックスが画像上の対応する位置に重ね合わされ、M = {1: p1、2: p2、...、K: pK} などのデジタル ラベルが付けられ、ラベル付きの新しい画像が生成されます。

モデルは、候補マーカーから対応するマーカーを選択し、それを元の座標と組み合わせる必要があるため、インテリジェント モデルのアクション ローカリゼーション タスクが大幅に簡素化されます。

写真

マークされた軌道(ToM)に基づく行動計画

ビデオ データには、人間の行動や活動に関する多くの情報が含まれており、インテリジェント モデルの機能を向上するために使用できますが、アクション ラベル データは非常に不足しています。

研究者らは、「マークを重ねる」戦略を静止画像から動的なビデオに拡張し、インテリジェントモデルがビデオからアクションを計画して実行することを効果的に学習できるようにする「Trace-of-Mark」(ToM)手法を提案した。

t番目のフレームItのK個のマーカーについて、次のIフレームのマーカーの対応する位置が抽出され、軌跡T = {Mt+1、...、Mt+l}として記録されます。モデルはさらに、有効なマーカーの将来の軌跡を予測する必要があります。ここで、trace[t+1:t+l]は、マーカーセットT内の有効なマーカーの軌跡シーケンスのサブセットです。

写真

ToM 予測方法はビデオ データを最大限に活用できるため、モデルはビデオ観測における時間的ダイナミクスを理解し、次のアクションを実行する前に「先を見通す」ことができます。より少ないトークンを使用して、より長い時間範囲にわたるアクション関連のターゲット ダイナミクスをキャプチャし、無関係な周囲のコンテンツを無視します。

研究者らは、ポイント追跡モデル CoTracker を使用して ToM データを抽出しました。

モデリング

Magma に必要なマルチモーダル理解機能を維持するために、研究者はビジュアル エンコーダー V を使用して各フレームを複数のトークンにエンコードし、それらをシーケンスに連結して、タスクの説明をエンコードする言語トークンとともにデコーダーのみの言語モデル (LLM) に入力しました。

タスクの多様性のため、研究者は、さまざまな解像度の画像やビデオをシームレスに処理し、グローバル コンテキストを適切にキャプチャして、グローバル クロッピングとローカル クロッピングを組み合わせた方法に匹敵する結果を得ることができる ConvNeXt をビジュアル バックボーン ネットワークとして選択しました。

写真

エージェントは自己回帰デコード プロセスとしてモデル化され、以前のすべての出力、ビジュアル エンコーダーによる画像エンコーディング、タスクの説明、およびコンテキスト情報に基づいて次の出力を生成します。

実験結果

エージェントの機能

研究者らは、ScreenSpot を使用してユーザー インターフェイス (UI) アクションのローカリゼーションとナビゲーション機能を評価し、VisualWebBench を使用して Web 環境でのパフォーマンスをテストし、SimplerEnv を使用してロボット操作タスクのパフォーマンスを評価しました。

写真

結果は、Magma が、すべてのテストにおいて、他の汎用大規模マルチモーダル モデル (LLaVA や Qwen-VL など) や、UI ナビゲーション用の SeeClick やロボット操作用の OpenVLA などのドメイン固有のエージェント モデルよりも一貫して優れていることを示しています。ユーザー インターフェイス タスクでは、Magma のゼロ ショット パフォーマンスは、最も高度なビジョン ベースの方法 (GPT-4V と Omniparser を組み合わせたもの) を上回っています。

写真

Magma の事前トレーニング済みモデルの成功率は、2 位の OpenVLA よりも 19.6% 高く、平均成功率のほぼ 2 倍です。

空間推論

研究者らは、ユーザー インターフェイス (UI) ナビゲーションとロボット操作タスクにおける Magma モデルの優れたパフォーマンスは、空間推論機能の向上によるものだと結論付け、視覚空間推論 (VSR)、BLINK、SpatialEval ベンチマークで評価しました。

写真

結果から、Magma は VSR と SpatialEval の既存の方法よりも大幅に優れたパフォーマンスを発揮し、事前トレーニングでは約 2,900 万枚の画像しか使用していないことがわかります。これに対し、CogVLM は約 15 億枚の画像を使用します。2 つのモデルのパフォーマンスはほぼ同等です。アブレーション実験では、ラベル付きセット (SoM) とラベル付き軌跡 (ToM) の事前トレーニング タスクが Magma の空間推論機能の向上に役立つことが実証されています。

写真

マルチモーダル理解

画像命令の微調整:研究者らは Magma モデルを Magma-SFT-820K データセットで微調整し、その後、微調整された Magma モデルを、一般的に使用される一連の画像推論ベンチマークで既存の視覚言語モデル (VLM) と比較しました。結果、Magma はほとんどのタスク、特に TextVQA タスクと ChartQA タスクで最近提案された VLM よりも優れており、それぞれ約 5% と 22% の大幅な改善を達成しました。

写真

ビデオ指導の微調整:研究者らは、IntentQA、NextQA、VideoMME、MVBench などの複数のビデオ質問応答 (QA) ベンチマークにおける Magma モデルのパフォーマンスを報告し、事前トレーニング アプローチの有効性を実証しました。

写真

Magma は、さまざまなベンチマークで同等の数のパラメータを持つほとんどの最先端モデルを一貫して上回っており、Magma がビデオ コンテンツを適切に理解して推論でき、複雑なタスク シナリオでも優れたパフォーマンスを発揮できることを示しています。

参照: https://huggingface.co/papers/2502.13130


<<:  「アンティーク」GPUでもDeepSeekと同じGRPOを実行できます。ビデオメモリは1/10しか必要とせず、コンテキストは10倍に増加します

>>:  先ほど、Manus Lianchuang は「サンドボックス脱獄」の問題に反応し、次のように述べました。「MCP は役に立たない!」さて、オープンソース化計画が正式に発表されました!

推薦する

...

AIが初めて新型コロナウイルスの警告を発するのか?人工知能はあなたが思っている以上に信頼できるものです!

2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...

AIカンファレンスは数多くあるが、私たちは違う

[51CTO.com からのオリジナル記事] テクノロジーが国の基盤であるならば、人工知能は将来の技...

AI基礎データサービス市場は新たな段階に入った

データプライバシー保護規制が継続的に改善され、国がデータ要素市場を積極的に育成し、データ流通が継続的...

Apple、新しいGPUアクセラレーションツールCreate MLをリリース

Appleは本日、カリフォルニア州サンノゼで2018年ワールドワイド開発者会議を開催し、4つの主要な...

...

中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノー​​トルダム...

...

ChatGPTはAmazonに「オンラインストアを開設」し、一夜にしてインターネットの有名人になった

「当社の [製品] は、[タスク 1]、[タスク 2]、[タスク 3] など複数のタスクに使用できる...

...

Meta主任AI研究者ヤン・リクン氏:今日のAIは愚かであり、規制当局は我々に干渉すべきではない

ソーシャルメディアFacebookの親会社Metaの主任人工知能研究者ヤン・ルカン氏は10月20日、...

Meituanが小サンプル学習リストFewCLUEで1位にランクイン!迅速な学習 + 自己トレーニングの実践

著者: Luo Ying、Xu Jun、Xie Rui など1 概要CLUE(中国語言語理解評価) ...

機械学習プロジェクトを管理および組織化する方法

この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...

雪の結晶がどのように形成されるかは、これまでずっと謎でした。この物理学者は、その謎を解明したいと考えています。

テクノロジートラベラー北京ニュース 1 月 3 日:ケネス・リブブレヒトは、この寒い冬に暖かく快適な...

馬懿、沈向陽、曹英の最新AIレビューが人気に!作成に3か月かかりました。ネットユーザー必読の論文です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...