知恵くんの“いいとこ”が明らかに！初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。

「来週」になって間もなく、Zhiyuan Robotics の「素晴らしいもの」が公開されました。それは、Vision-Language-Latent-Action (ViLLA) アーキテクチャとユニバーサルな具現化ベースの大型モデル GO-1 という二重の驚きでした。

ロボットのトレーニングは、データの取得が難しいため、長い間困難でした。一方では、認知の次元におけるデータがあります。インターネット上の膨大な量のテキストと画像データは、ロボットが基本的な認知を確立し、世界がどのようなものであるかを理解するのに役立ちます。

一方、アクション次元には、主に人間の操作ビデオ、クロスエンティティのデモンストレーションビデオ、仮想シーンで実践されたシミュレーションデータ、実際の環境での実際のロボット操作から得られた実機ティーチングデータから得られるデータがあります。

Zhiyuan Robotはロボットのトレーニングデータを4つのレベルに分割します

しかし、既存の VLA (Vision-Language-Action) アーキテクチャは、主に実際のマシンと合成データに依存しています。

私たちが毎日見ている短い動画には、ロボットが学習できる操作が数多く含まれていますが、そのまま使用することはできず、ロボットが理解できる言語に「翻訳」する必要があります。

したがって、ロボットが人間のビデオチュートリアルを見て、脳と手で学習し、その後直接タスクを完了し始めることは困難です。

人間/エンティティ間の操作ビデオデータというこの貴重なデータソースを十分に活用しないと、ロボットの反復コストが高くなり、進化のペースが遅くなります。

では、どのようなアーキテクチャがこのデータを最大限に活用できるのでしょうか?

Zhiyuan は新しい Vision-Language-Latent-Action (ViLLA) アーキテクチャを提案しました。

VLA アーキテクチャと比較して、ViLLA では、ロボットが潜在アクショントークンを予測することで、人間のアクションビデオを実行可能なアクションシーケンスに変換できます。このようにして、ロボットは結果とその背後にある理由の両方を認識しながら、認知と行動の両方の次元で同時にトレーニングを受けることができます。

このようにして、ロボットは高品質の AgiBot World データセットとインターネット上の広範なビデオデータを効果的に活用して、戦略の一般化能力を高めることもできます。

Zhiyuan は、ViLLA アーキテクチャに基づいて、ユニバーサルな具現化ベースの大型モデルである GO-1 を作成しました。これは、VLM (言語視覚モデル) と MoE (専門家混合モデル) で構成されています。視覚、言語、動作、触覚などのマルチモーダル入力を統合し、具体的な動作を計画し、ロボットの動作実行シーケンスを直接出力します。

たとえば、ロボットに衣服を掛けるように指示すると、GO-1 はロボットがタスク要件を理解し、アクションステップを分解し、特定の環境に適応し、最終的に操作を実行するようにガイドします。

しかし、より深い技術的なレベルでは、GO-1 モデルが 4 つのレベルのロボットトレーニングデータを統合しているためです。

トレーニング段階では、インターネット上の大量のプレーンテキストとグラフィックデータから学習し、このコンテキストでの「衣服を掛ける」の意味と要件を理解できるようになりました。

私は人間の操作ビデオや他のロボットのさまざまな操作ビデオを研究してきたので、衣服を掛けるときに通常どのような手順が必要なのかを知っています。

さまざまな衣服、さまざまなワードローブ、さまざまな部屋をシミュレートし、衣服を掛ける操作をシミュレートすることを学びました。これにより、リンク内の対応するオブジェクトと環境を理解し、タスクプロセス全体を完了することができます。

また、ロボットは実機のティーチングデータを学習しているため、正確にタスクを完了することができます。

このように、GO-1大型モデルは、ロボットが総合的な「基礎教育」と「職業教育」を完了するのに役立ち、ロボットが強力な転移学習能力を持つことを可能にします。新しいシナリオに直面したとき、ロボットは基本的な常識と、さまざまな環境や物体に基づいて新しい操作を素早く習得する能力の両方を備えています。

論文リンク: https://agibot-world.com/blog/agibot_go1.pdf

GO-1: VLA が ViLLA に進化

ビジョン・言語・アクション (VLA) アーキテクチャと比較して、ViLLA は潜在アクショントークンを予測することで、画像テキスト入力とロボットが実行するアクション間のギャップを埋めます。現実世界の器用な操作や長時間のタスクにおいて優れたパフォーマンスを発揮し、既存のオープンソース SOTA モデルをはるかに上回ります。

ViLLA アーキテクチャは、VLM (マルチモーダルラージモデル) + MoE (ハイブリッドエキスパート) で構成されており、VLM は大量のインターネットグラフィックデータを使用して一般的なシーン認識と言語理解機能を取得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を取得し、MoE の Action Expert は数百万の実際のマシンデータを使用して高度なアクション実行機能を取得します。

推論中は、VLM、潜在的プランナー、アクションエキスパートが連携して動作します。

VLM は、一般的なシーン認識とコマンド理解のために、マルチビュー視覚画像、力信号、言語入力などのマルチモーダル情報を受信するために InternVL-2B を使用します。
Latent Plannerは、一般的な行動の理解と計画のためにVLMの中間層出力に基づいて、CoP（計画の連鎖）として潜在行動トークンを予測するMoEの専門家グループです。
アクションエキスパートはMoEの別のエキスパートグループであり、VLMと潜在アクショントークンの中間層出力に基づいて最終的な細かいアクションシーケンスを生成します。

潜在的プランナーとアクションエキスパートは、この MoE フレームワークの 2 つの主要コンポーネントです。

潜在的プランナー

AgiBot World データセットはすでに世界最大の実機ロボット教育データセットですが、アクションラベル付きの高品質な実機データの量は未だ限られており、インターネット規模のデータセットに比べるとはるかに少ないです。

この目的のために、Zhiyuan は潜在アクションを採用して現在のフレームと履歴フレーム間の暗黙的な変更をモデル化し、これらの潜在アクションを Latent Planner を通じて予測し、異種データソースからの実際のアクション知識を一般的な操作タスクに転送します。

潜在アクションモデル (LAM) は、主に現在のフレームと過去のフレーム間の潜在アクションの Groundtruth (真の値) を取得するために使用されます。これは、エンコーダーとデコーダーで構成されます。で
エンコーダーは空間時間トランスフォーマーを採用し、Causal Temporal Masks を使用します。
デコーダーは、初期フレームと離散化された潜在アクショントークンを入力として受け取る Spatial Transformer を使用します。
潜在アクショントークンは VQ-VAE を使用して量子化されます。
潜在プランナーは、これらの個別の潜在アクショントークンを予測する役割を担います。VLM バックボーンネットワークと同じトランスフォーマー構造を共有しますが、2 つの独立した FFN (フィードフォワードニューラルネットワーク) と Q/K/V/O (クエリ、キー、値、出力) 投影マトリックスを使用します。 Latent Planner の専門家チームは、VLM によって出力された中間情報をレイヤーごとに組み合わせ、クロスエントロピー損失を通じて教師ありトレーニングを実行します。

アクションエキスパート

高頻度かつ器用な制御を実現するために、Zhiyuan は、拡散モデルを目的関数として使用して低レベルアクションの連続的な分布をモデル化する Action Expert を導入しました。

Action Expert の構造設計は Latent Planner と似ており、VLM バックボーンネットワークと同じ Transformer 構造を共有していますが、2 つの独立した FFN と Q/K/V/O 投影行列を使用しています。ノイズ除去プロセスを通じてアクションシーケンスを徐々に回帰します。
Action Expert は、VLM および Latent Planner と階層化されており、情報フローの一貫性と共同最適化を保証します。

GO-1 初のユニバーサルボディベースモデル

GO-1 は ViLLA アーキテクチャに基づいています。具体的には、VLM は、汎用具現化ベース大規模モデルのバックボーンネットワークとして、オープンソースのマルチモーダル大規模モデル InternVL2.5-2B の重みを継承し、インターネット上の大規模なプレーンテキストおよびグラフィックデータを使用することで、GO-1 大規模モデルに一般的なシーン認識および理解機能を持たせます。

最初のエキスパートモデルである暗黙的アクションエキスパートモデルは、GO-1 大規模モデルにおける暗黙的なプランナーです。大規模な人間の操作とエンティティ間の操作ビデオを活用して、モデルがアクションを理解する能力を実現します。

GO-1 大規模モデルの最後には、アクション予測器として機能するアクションエキスパートモデルがあります。このモデルは、高品質のシミュレーションデータと実際のマシンデータを使用することで、アクションを正確に実行できる機能を備えています。

大規模なユニバーサル具現化ベースモデルとして、GO-1 は次の 4 つのブレークスルーを達成しました。

人間のビデオ学習: GO-1 大規模モデルは、インターネットビデオと実際の人間のデモンストレーションを組み合わせて学習できるため、モデルの人間の行動に対する理解が深まり、人間へのサービスが向上します。
少量サンプルによる高速一般化: GO-1 大規模モデルは強力な一般化機能を備えており、非常に少ないデータ、またはサンプルがゼロであっても、新しいシナリオや新しいタスクに一般化できるため、具体化されたモデルを使用するしきい値が低くなり、トレーニング後のコストが非常に低くなります。
1 つの脳、複数のフォーム: GO-1 大型モデルは、さまざまなロボットフォーム間を移行し、さまざまなボディにすばやく適応し、グループの知能を向上させることができる汎用ロボット戦略モデルです。
継続的な進化: GO-1 大型モデルは、Zhiyuan データリターンシステムの完全なセットと組み合わせられ、実際の実行中に遭遇した問題データから継続的に進化して学習し、使用するにつれてよりスマートになります。

実験結果

研究チームは、革新的な Vision-Language-Latent-Action (ViLLA) アーキテクチャを使用して、複雑さの異なる 5 つのタスクで GO-1 をテストしました。

既存の最適モデルと比較すると、GO-1 は成功率が大幅に高く、平均成功率は 32% (46% → 78%) 増加しました。その中でも、GO-1は水を注ぐ、テーブルを掃除する、飲み物を補充するといった作業で特に優れたパフォーマンスを発揮しました。

さらに、Latent Plannerの除去実験も行い、Latent Plannerを追加すると成功率が12%（66%→78%）向上することがわかりました。

ロボットトレーニングのデータ問題を解決するにあたり、Zhiyuan は常にオープンソースの精神を堅持し、業界内での共有を推進してきました。

昨年12月、Zhiyuanは大規模なトレーニングデータセットであるAgiBot Worldデータセットを世界に公開しました。これは、実際のシーンとフルスタックハードウェアに基づくプラットフォームによって収集された最初の100万レベルのロボットデータセットです。今年 2 月、Zhiyuan は AgiBot Digital World シミュレーションデータセットをオープンソース化しました。このデータセットは、多様な専門家の軌道生成戦略も提供できます。

現在、ViLLAアーキテクチャとGO-1大型モデルのリリースにより、ロボットは大量の実データとシミュレーションデータを持つだけでなく、迅速に学習して移行する能力も備えています。機械は運動能力の拡張に加えて、AI機能と操作機能も備えており、実際の価値を与えています。

ロボットは、常に変化する現実の環境に適応し、汎用的な知能を備えた自律的な存在へと発展し、商業、産業、家庭生活など多くの分野でその能力を発揮できるようになると考えられています。

<<: プログラマー試験ノート4: ソートアルゴリズム

>>: DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

ブログ

知恵くんの“いいとこ”が明らかに！初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

GO-1: VLA が ViLLA に進化

GO-1 初のユニバーサルボディベースモデル

実験結果

フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

TFとPyTorchだけを知っているだけでは不十分です。PyTorchから自動微分ツールJAXに切り替える方法を見てみましょう。

ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

初心者必読！畳み込みニューラルネットワークの始め方

チューリングテストは死んだ！ ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

推薦する

AIがデータセンターのワークロード管理の課題を解決

インテリジェントビルにおける人工知能技術の応用の展望

リーダーシップの大幅刷新後、Google Cloud の断片化と成長の鈍化の責任は誰にあるのでしょうか?

彼女に転送してください!文系女子でもわかるAIガイドライン

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

2020年のIoTイベントトップ10を振り返る。アプリケーションの加速

人工知能がオンライン上の虚偽情報や誤情報に与える影響について

貪欲アルゴリズム: K回の反転後の配列の合計を最大化する

人工知能の可能性を解き放つ3つのステップ

DeepMindの論文がNatureに掲載されました。大規模なモデルが、数学者を何十年も悩ませてきた問題に新たな解決策を発見しました。

畳み込みニューラルネットワークの設計を始めたいですか?これは包括的なデザインガイドです

IBM WatsonX: AIを企業の生産性の中核に