知恵くんの“いいとこ”が明らかに!初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

知恵くんの“いいとこ”が明らかに!初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。


「来週」になって間もなく、Zhiyuan Robotics の「素晴らしいもの」が公開されました。それは、Vision-Language-Latent-Action (ViLLA) アーキテクチャとユニバーサルな具現化ベースの大型モデル GO-1 という二重の驚きでした。

ロボットのトレーニングは、データの取得が難しいため、長い間困難でした。一方では、認知の次元におけるデータがあります。インターネット上の膨大な量のテキストと画像データは、ロボットが基本的な認知を確立し、世界がどのようなものであるかを理解するのに役立ちます。

一方、アクション次元には、主に人間の操作ビデオ、クロスエンティティのデモンストレーションビデオ、仮想シーンで実践されたシミュレーションデータ、実際の環境での実際のロボット操作から得られた実機ティーチングデータから得られるデータがあります。

Zhiyuan Robotはロボットのトレーニングデータを4つのレベルに分割します

しかし、既存の VLA (Vision-Language-Action) アーキテクチャは、主に実際のマシンと合成データに依存しています。

私たちが毎日見ている短い動画には、ロボットが学習できる操作が数多く含まれていますが、そのまま使用することはできず、ロボットが理解できる言語に「翻訳」する必要があります。

したがって、ロボットが人間のビデオチュートリアルを見て、脳と手で学習し、その後直接タスクを完了し始めることは困難です。

人間/エンティティ間の操作ビデオデータというこの貴重なデータソースを十分に活用しないと、ロボットの反復コストが高くなり、進化のペースが遅くなります。

では、どのようなアーキテクチャがこのデータを最大限に活用できるのでしょうか?

Zhiyuan は新しい Vision-Language-Latent-Action (ViLLA) アーキテクチャを提案しました。

VLA アーキテクチャと比較して、ViLLA では、ロボットが潜在アクション トークンを予測することで、人間のアクション ビデオを実行可能なアクション シーケンスに変換できます。このようにして、ロボットは結果とその背後にある理由の両方を認識しながら、認知と行動の両方の次元で同時にトレーニングを受けることができます。

このようにして、ロボットは高品質の AgiBot World データセットとインターネット上の広範なビデオ データを効果的に活用して、戦略の一般化能力を高めることもできます。

Zhiyuan は、ViLLA アーキテクチャに基づいて、ユニバーサルな具現化ベースの大型モデルである GO-1 を作成しました。これは、VLM (言語視覚モデル) と MoE (専門家混合モデル) で構成されています。視覚、言語、動作、触覚などのマルチモーダル入力を統合し、具体的な動作を計画し、ロボットの動作実行シーケンスを直接出力します。

たとえば、ロボットに衣服を掛けるように指示すると、GO-1 はロボットがタスク要件を理解し、アクション ステップを分解し、特定の環境に適応し、最終的に操作を実行するようにガイドします。

しかし、より深い技術的なレベルでは、GO-1 モデルが 4 つのレベルのロボット トレーニング データを統合しているためです。

トレーニング段階では、インターネット上の大量のプレーンテキストとグラフィックデータから学習し、このコンテキストでの「衣服を掛ける」の意味と要件を理解できるようになりました。

私は人間の操作ビデオや他のロボットのさまざまな操作ビデオを研究してきたので、衣服を掛けるときに通常どのような手順が必要なのかを知っています。

さまざまな衣服、さまざまなワードローブ、さまざまな部屋をシミュレートし、衣服を掛ける操作をシミュレートすることを学びました。これにより、リンク内の対応するオブジェクトと環境を理解し、タスクプロセス全体を完了することができます。

また、ロボットは実機のティーチングデータを学習しているため、正確にタスクを完了することができます。

このように、GO-1大型モデルは、ロボットが総合的な「基礎教育」と「職業教育」を完了するのに役立ち、ロボットが強力な転移学習能力を持つことを可能にします。新しいシナリオに直面したとき、ロボットは基本的な常識と、さまざまな環境や物体に基づいて新しい操作を素早く習得する能力の両方を備えています。

  • 論文リンク: https://agibot-world.com/blog/agibot_go1.pdf

GO-1: VLA が ViLLA に進化

ビジョン・言語・アクション (VLA) アーキテクチャと比較して、ViLLA は潜在アクション トークンを予測することで、画像テキスト入力とロボットが実行するアクション間のギャップを埋めます。現実世界の器用な操作や長時間のタスクにおいて優れたパフォーマンスを発揮し、既存のオープンソース SOTA モデルをはるかに上回ります。

ViLLA アーキテクチャは、VLM (マルチモーダル ラージ モデル) + MoE (ハイブリッド エキスパート) で構成されており、VLM は大量のインターネット グラフィック データを使用して一般的なシーン認識と言語理解機能を取得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を取得し、MoE の Action Expert は数百万の実際のマシン データを使用して高度なアクション実行機能を取得します。

推論中は、VLM、潜在的プランナー、アクション エキスパートが連携して動作します。

  • VLM は、一般的なシーン認識とコマンド理解のために、マルチビュー視覚画像、力信号、言語入力などのマルチモーダル情報を受信するために InternVL-2B を使用します。
  • Latent Plannerは、一般的な行動の理解と計画のためにVLMの中間層出力に基づいて、CoP(計画の連鎖)として潜在行動トークンを予測するMoEの専門家グループです。
  • アクションエキスパートはMoEの別のエキスパートグループであり、VLMと潜在アクショントークンの中間層出力に基づいて最終的な細かいアクションシーケンスを生成します。

潜在的プランナーとアクション エキスパートは、この MoE フレームワークの 2 つの主要コンポーネントです。

潜在的プランナー

AgiBot World データセットはすでに世界最大の実機ロボット教育データセットですが、アクションラベル付きの高品質な実機データの量は未だ限られており、インターネット規模のデータセットに比べるとはるかに少ないです。

この目的のために、Zhiyuan は潜在アクションを採用して現在のフレームと履歴フレーム間の暗黙的な変更をモデル化し、これらの潜在アクションを Latent Planner を通じて予測し、異種データ ソースからの実際のアクション知識を一般的な操作タスクに転送します。

  • 潜在アクション モデル (LAM) は、主に現在のフレームと過去のフレーム間の潜在アクションの Groundtruth (真の値) を取得するために使用されます。これは、エンコーダーとデコーダーで構成されます。で
  • エンコーダーは空間時間トランスフォーマーを採用し、Causal Temporal Masks を使用します。
  • デコーダーは、初期フレームと離散化された潜在アクション トークンを入力として受け取る Spatial Transformer を使用します。
  • 潜在アクション トークンは VQ-VAE を使用して量子化されます。
  • 潜在プランナーは、これらの個別の潜在アクション トークンを予測する役割を担います。VLM バックボーン ネットワークと同じトランスフォーマー構造を共有しますが、2 つの独立した FFN (フィードフォワード ニューラル ネットワーク) と Q/K/V/O (クエリ、キー、値、出力) 投影マトリックスを使用します。 Latent Planner の専門家チームは、VLM によって出力された中間情報をレイヤーごとに組み合わせ、クロスエントロピー損失を通じて教師ありトレーニングを実行します。

アクションエキスパート

高頻度かつ器用な制御を実現するために、Zhiyuan は、拡散モデルを目的関数として使用して低レベルアクションの連続的な分布をモデル化する Action Expert を導入しました。

  • Action Expert の構造設計は Latent Planner と似ており、VLM バックボーン ネットワークと同じ Transformer 構造を共有していますが、2 つの独立した FFN と Q/K/V/O 投影行列を使用しています。ノイズ除去プロセスを通じてアクション シーケンスを徐々に回帰します。
  • Action Expert は、VLM および Latent Planner と階層化されており、情報フローの一貫性と共同最適化を保証します。

GO-1 初のユニバーサルボディベースモデル

GO-1 は ViLLA アーキテクチャに基づいています。具体的には、VLM は、汎用具現化ベース大規模モデルのバックボーン ネットワークとして、オープンソースのマルチモーダル大規模モデル InternVL2.5-2B の重みを継承し、インターネット上の大規模なプレーン テキストおよびグラフィック データを使用することで、GO-1 大規模モデルに一般的なシーン認識および理解機能を持たせます。

最初のエキスパートモデルである暗黙的アクションエキスパートモデルは、GO-1 大規模モデルにおける暗黙的なプランナーです。大規模な人間の操作とエンティティ間の操作ビデオを活用して、モデルがアクションを理解する能力を実現します。

GO-1 大規模モデルの最後には、アクション予測器として機能するアクション エキスパート モデルがあります。このモデルは、高品質のシミュレーション データと実際のマシン データを使用することで、アクションを正確に実行できる機能を備えています。

大規模なユニバーサル具現化ベースモデルとして、GO-1 は次の 4 つのブレークスルーを達成しました。

  • 人間のビデオ学習: GO-1 大規模モデルは、インターネット ビデオと実際の人間のデモンストレーションを組み合わせて学習できるため、モデルの人間の行動に対する理解が深まり、人間へのサービスが向上します。
  • 少量サンプルによる高速一般化: GO-1 大規模モデルは強力な一般化機能を備えており、非常に少ないデータ、またはサンプルがゼロであっても、新しいシナリオや新しいタスクに一般化できるため、具体化されたモデルを使用するしきい値が低くなり、トレーニング後のコストが非常に低くなります。
  • 1 つの脳、複数のフォーム: GO-1 大型モデルは、さまざまなロボット フォーム間を移行し、さまざまなボディにすばやく適応し、グループの知能を向上させることができる汎用ロボット戦略モデルです。
  • 継続的な進化: GO-1 大型モデルは、Zhiyuan データ リターン システムの完全なセットと組み合わせられ、実際の実行中に遭遇した問題データから継続的に進化して学習し、使用するにつれてよりスマートになります。

実験結果

研究チームは、革新的な Vision-Language-Latent-Action (ViLLA) アーキテクチャを使用して、複雑さの異なる 5 つのタスクで GO-1 をテストしました。

既存の最適モデルと比較すると、GO-1 は成功率が大幅に高く、平均成功率は 32% (46% → 78%) 増加しました。その中でも、GO-1は水を注ぐ、テーブルを掃除する、飲み物を補充するといった作業で特に優れたパフォーマンスを発揮しました。

さらに、Latent Plannerの除去実験も行い、Latent Plannerを追加すると成功率が12%(66%→78%)向上することがわかりました。

ロボットトレーニングのデータ問題を解決するにあたり、Zhiyuan は常にオープンソースの精神を堅持し、業界内での共有を推進してきました。

昨年12月、Zhiyuanは大規模なトレーニングデータセットであるAgiBot Worldデータセットを世界に公開しました。これは、実際のシーンとフルスタックハードウェアに基づくプラットフォームによって収集された最初の100万レベルのロボットデータセットです。今年 2 月、Zhiyuan は AgiBot Digital World シミュレーション データセットをオープンソース化しました。このデータセットは、多様な専門家の軌道生成戦略も提供できます。

現在、ViLLAアーキテクチャとGO-1大型モデルのリリースにより、ロボットは大量の実データとシミュレーションデータを持つだけでなく、迅速に学習して移行する能力も備えています。機械は運動能力の拡張に加えて、AI機能と操作機能も備えており、実際の価値を与えています。

ロボットは、常に変化する現実の環境に適応し、汎用的な知能を備えた自律的な存在へと発展し、商業、産業、家庭生活など多くの分野でその能力を発揮できるようになると考えられています。

<<:  プログラマー試験ノート4: ソートアルゴリズム

>>:  DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

マイクロソフトの人工知能音声技術は「複数の感情レベル」の調整をサポートし、「人間の声」の繊細な解釈を可能にする

IT Homeは4月12日、マイクロソフトが最近、最新の音声技術を発表したと報じた。この技術は「感情...

没入型環境向けロボットの開発における3つの課題

[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...

DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付...

パフォーマンスが20%向上しました! USTCの「状態シーケンス周波数領域予測」手法:学習サンプル効率の最大化の特徴

強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプ...

人工知能開発における個人情報保護

インターネット空間は、人間が肉体から切り離された「デジタルサバイバル」を実現し、「デジタルパーソナリ...

ブースティングとバギング: 堅牢な機械学習アルゴリズムを開発する方法

導入機械学習とデータ サイエンスでは、単にデータを Python ライブラリに投入してその結果を活用...

人工知能: 物理的セキュリティ業界における最大の破壊者

[[347792]]今日のセキュリティとテクノロジーの分野における大きなトレンドの 1 つは、世界中...

Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見

自動評価および安全性プラットフォームである Patronus AI は、大規模言語モデル (LLM)...

10億ピクセル画像のマルチスケール特性評価のためのスタンフォード大学の新しいニューラルシーン表現方法がSIGGRAPHに選出されました

現在、ニューラル表現は、レンダリング、イメージング、幾何学モデリング、シミュレーション アプリケーシ...

...

百人一首の戦いはかつてないレベルに到達!

執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...

AIが指紋を偽造できる場合、生体認証は依然として安全ですか?

[[256506]] 「人工知能技術は、大量の指紋データを『原材料』として利用し、その構造的特徴や...

水に溶けるロボットを見たことがありますか?ゼラチンと砂糖の3Dプリント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アメリカのショッピングプラットフォームStitch Fixの王建強氏:データ主導の意思決定サポートと製品インテリジェンス

[51CTO.comより] 最近、51CTOが主催するWOTAグローバルアーキテクチャと運用技術サミ...

人工知能が実戦投入され、すでに一部は排除・解雇されている!

脳極体[[237444]]全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェ...