先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。 「来週」になって間もなく、Zhiyuan Robotics の「素晴らしいもの」が公開されました。それは、Vision-Language-Latent-Action (ViLLA) アーキテクチャとユニバーサルな具現化ベースの大型モデル GO-1 という二重の驚きでした。 ロボットのトレーニングは、データの取得が難しいため、長い間困難でした。一方では、認知の次元におけるデータがあります。インターネット上の膨大な量のテキストと画像データは、ロボットが基本的な認知を確立し、世界がどのようなものであるかを理解するのに役立ちます。 一方、アクション次元には、主に人間の操作ビデオ、クロスエンティティのデモンストレーションビデオ、仮想シーンで実践されたシミュレーションデータ、実際の環境での実際のロボット操作から得られた実機ティーチングデータから得られるデータがあります。 Zhiyuan Robotはロボットのトレーニングデータを4つのレベルに分割します しかし、既存の VLA (Vision-Language-Action) アーキテクチャは、主に実際のマシンと合成データに依存しています。 私たちが毎日見ている短い動画には、ロボットが学習できる操作が数多く含まれていますが、そのまま使用することはできず、ロボットが理解できる言語に「翻訳」する必要があります。 したがって、ロボットが人間のビデオチュートリアルを見て、脳と手で学習し、その後直接タスクを完了し始めることは困難です。 人間/エンティティ間の操作ビデオデータというこの貴重なデータソースを十分に活用しないと、ロボットの反復コストが高くなり、進化のペースが遅くなります。 では、どのようなアーキテクチャがこのデータを最大限に活用できるのでしょうか? Zhiyuan は新しい Vision-Language-Latent-Action (ViLLA) アーキテクチャを提案しました。 VLA アーキテクチャと比較して、ViLLA では、ロボットが潜在アクション トークンを予測することで、人間のアクション ビデオを実行可能なアクション シーケンスに変換できます。このようにして、ロボットは結果とその背後にある理由の両方を認識しながら、認知と行動の両方の次元で同時にトレーニングを受けることができます。 このようにして、ロボットは高品質の AgiBot World データセットとインターネット上の広範なビデオ データを効果的に活用して、戦略の一般化能力を高めることもできます。 Zhiyuan は、ViLLA アーキテクチャに基づいて、ユニバーサルな具現化ベースの大型モデルである GO-1 を作成しました。これは、VLM (言語視覚モデル) と MoE (専門家混合モデル) で構成されています。視覚、言語、動作、触覚などのマルチモーダル入力を統合し、具体的な動作を計画し、ロボットの動作実行シーケンスを直接出力します。 たとえば、ロボットに衣服を掛けるように指示すると、GO-1 はロボットがタスク要件を理解し、アクション ステップを分解し、特定の環境に適応し、最終的に操作を実行するようにガイドします。 しかし、より深い技術的なレベルでは、GO-1 モデルが 4 つのレベルのロボット トレーニング データを統合しているためです。 トレーニング段階では、インターネット上の大量のプレーンテキストとグラフィックデータから学習し、このコンテキストでの「衣服を掛ける」の意味と要件を理解できるようになりました。 私は人間の操作ビデオや他のロボットのさまざまな操作ビデオを研究してきたので、衣服を掛けるときに通常どのような手順が必要なのかを知っています。 さまざまな衣服、さまざまなワードローブ、さまざまな部屋をシミュレートし、衣服を掛ける操作をシミュレートすることを学びました。これにより、リンク内の対応するオブジェクトと環境を理解し、タスクプロセス全体を完了することができます。 また、ロボットは実機のティーチングデータを学習しているため、正確にタスクを完了することができます。 このように、GO-1大型モデルは、ロボットが総合的な「基礎教育」と「職業教育」を完了するのに役立ち、ロボットが強力な転移学習能力を持つことを可能にします。新しいシナリオに直面したとき、ロボットは基本的な常識と、さまざまな環境や物体に基づいて新しい操作を素早く習得する能力の両方を備えています。
GO-1: VLA が ViLLA に進化ビジョン・言語・アクション (VLA) アーキテクチャと比較して、ViLLA は潜在アクション トークンを予測することで、画像テキスト入力とロボットが実行するアクション間のギャップを埋めます。現実世界の器用な操作や長時間のタスクにおいて優れたパフォーマンスを発揮し、既存のオープンソース SOTA モデルをはるかに上回ります。 ViLLA アーキテクチャは、VLM (マルチモーダル ラージ モデル) + MoE (ハイブリッド エキスパート) で構成されており、VLM は大量のインターネット グラフィック データを使用して一般的なシーン認識と言語理解機能を取得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を取得し、MoE の Action Expert は数百万の実際のマシン データを使用して高度なアクション実行機能を取得します。 推論中は、VLM、潜在的プランナー、アクション エキスパートが連携して動作します。
潜在的プランナーとアクション エキスパートは、この MoE フレームワークの 2 つの主要コンポーネントです。 潜在的プランナー AgiBot World データセットはすでに世界最大の実機ロボット教育データセットですが、アクションラベル付きの高品質な実機データの量は未だ限られており、インターネット規模のデータセットに比べるとはるかに少ないです。 この目的のために、Zhiyuan は潜在アクションを採用して現在のフレームと履歴フレーム間の暗黙的な変更をモデル化し、これらの潜在アクションを Latent Planner を通じて予測し、異種データ ソースからの実際のアクション知識を一般的な操作タスクに転送します。
アクションエキスパート 高頻度かつ器用な制御を実現するために、Zhiyuan は、拡散モデルを目的関数として使用して低レベルアクションの連続的な分布をモデル化する Action Expert を導入しました。
GO-1 初のユニバーサルボディベースモデルGO-1 は ViLLA アーキテクチャに基づいています。具体的には、VLM は、汎用具現化ベース大規模モデルのバックボーン ネットワークとして、オープンソースのマルチモーダル大規模モデル InternVL2.5-2B の重みを継承し、インターネット上の大規模なプレーン テキストおよびグラフィック データを使用することで、GO-1 大規模モデルに一般的なシーン認識および理解機能を持たせます。 最初のエキスパートモデルである暗黙的アクションエキスパートモデルは、GO-1 大規模モデルにおける暗黙的なプランナーです。大規模な人間の操作とエンティティ間の操作ビデオを活用して、モデルがアクションを理解する能力を実現します。 GO-1 大規模モデルの最後には、アクション予測器として機能するアクション エキスパート モデルがあります。このモデルは、高品質のシミュレーション データと実際のマシン データを使用することで、アクションを正確に実行できる機能を備えています。 大規模なユニバーサル具現化ベースモデルとして、GO-1 は次の 4 つのブレークスルーを達成しました。
実験結果研究チームは、革新的な Vision-Language-Latent-Action (ViLLA) アーキテクチャを使用して、複雑さの異なる 5 つのタスクで GO-1 をテストしました。 既存の最適モデルと比較すると、GO-1 は成功率が大幅に高く、平均成功率は 32% (46% → 78%) 増加しました。その中でも、GO-1は水を注ぐ、テーブルを掃除する、飲み物を補充するといった作業で特に優れたパフォーマンスを発揮しました。 さらに、Latent Plannerの除去実験も行い、Latent Plannerを追加すると成功率が12%(66%→78%)向上することがわかりました。 ロボットトレーニングのデータ問題を解決するにあたり、Zhiyuan は常にオープンソースの精神を堅持し、業界内での共有を推進してきました。 昨年12月、Zhiyuanは大規模なトレーニングデータセットであるAgiBot Worldデータセットを世界に公開しました。これは、実際のシーンとフルスタックハードウェアに基づくプラットフォームによって収集された最初の100万レベルのロボットデータセットです。今年 2 月、Zhiyuan は AgiBot Digital World シミュレーション データセットをオープンソース化しました。このデータセットは、多様な専門家の軌道生成戦略も提供できます。 現在、ViLLAアーキテクチャとGO-1大型モデルのリリースにより、ロボットは大量の実データとシミュレーションデータを持つだけでなく、迅速に学習して移行する能力も備えています。機械は運動能力の拡張に加えて、AI機能と操作機能も備えており、実際の価値を与えています。 ロボットは、常に変化する現実の環境に適応し、汎用的な知能を備えた自律的な存在へと発展し、商業、産業、家庭生活など多くの分野でその能力を発揮できるようになると考えられています。 |
>>: DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース
IT Homeは4月12日、マイクロソフトが最近、最新の音声技術を発表したと報じた。この技術は「感情...
[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...
ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付...
強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプ...
インターネット空間は、人間が肉体から切り離された「デジタルサバイバル」を実現し、「デジタルパーソナリ...
導入機械学習とデータ サイエンスでは、単にデータを Python ライブラリに投入してその結果を活用...
[[347792]]今日のセキュリティとテクノロジーの分野における大きなトレンドの 1 つは、世界中...
自動評価および安全性プラットフォームである Patronus AI は、大規模言語モデル (LLM)...
現在、ニューラル表現は、レンダリング、イメージング、幾何学モデリング、シミュレーション アプリケーシ...
執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...
[[256506]] 「人工知能技術は、大量の指紋データを『原材料』として利用し、その構造的特徴や...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.comより] 最近、51CTOが主催するWOTAグローバルアーキテクチャと運用技術サミ...
脳極体[[237444]]全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェ...