AIが人間の知能を超えるかどうかという疑問の答えがついに明らかに!李菲菲の弟子の新作は輪を破り、5万の合成データが人間の例を粉砕し、コーヒーを淹れる動作は超スムーズ

AIが人間の知能を超えるかどうかという疑問の答えがついに明らかに!李菲菲の弟子の新作は輪を破り、5万の合成データが人間の例を粉砕し、コーヒーを淹れる動作は超スムーズ

AI界の巨人ジェフリー・ヒントン氏は「テクノロジー企業は今後18カ月で、現在のGPT-4の100倍の計算能力を使って新しいモデルを訓練するだろう」と語った。

より大きなパラメータを持つモデルは、膨大な計算能力を必要とするだけでなく、データに対する要件も高くなります。

しかし、より高品質なデータはどこから得られるのでしょうか?

Nvidiaの上級科学者ジム・ファン氏は、「合成データは、私たちの膨大なモデルに数兆個のトークンを提供するだろう」と語った。

一例として、NVIDIA と UT の研究者は最新の研究で、大量のロボットトレーニングデータを生成できる MimicGen システムを提案しました。

論文アドレス: https://arxiv.org/pdf/2310.17596.pdf

具体的なプロセスとしては、デジタルツイン技術を用いて現実世界における人間の操作データをシミュレートされた環境で再現するというものです。

MimicGen は、200 回未満の人間によるデモンストレーションで、18 のタスク、複数のシミュレーション環境、さらには現実世界でも 50,000 のトレーニング データを自律的に生成することができました。

この研究のすべてのデータセットはオープンソースであることは言及する価値があります。

ジム・ファン氏の見解では、合成データとシミュレーションは、より多くのトレーニングデータを取得し、学習アルゴリズムの進歩を維持できるため、AI の開発にとって非常に重要です。これはロボット工学分野だけでなく、他の AI 分野にも適用できます。

ネットワークからの高品質なリアルトークンが急速に不足しています。人工的に合成されたデータから人工知能を獲得することが、今後の発展の方向となるでしょう。

正確に言えば、MimicGen は「スケーリング法則」を維持するための合成データとシミュレーションの威力を実証しています。

スムーズにコーヒーを準備する

MimicGen が実際にどのように機能するか、いくつかのデモを見てみます。

以下の例では、MimicGen はわずか 10 回の人間のデモンストレーションから 3 つの異なる環境分布に対して 1,000 回のデモン​​ストレーションを生成しました。

以下では、ビルディング ブロックの積み重ね、「針に糸を通す」、コーヒーの準備、組み立てなど、複数の異なるタスクと環境分布にわたって MimicGen によって生成されたいくつかのデータセットを示します。

MimicGen は、これまで見たことのないカップを引き出しに収納することもできます。

さまざまなロボットアームを柔軟に操作することもできます。

長くて複雑なタスクにおける MimicGen のパフォーマンス。

さらに、MimicGen は、ミリメートルレベルの精度が求められる接触作業にも適しています。

コーヒーを淹れるプロセスは非常にスムーズです。

他の生成された例では、合成データは高性能な表示を実現でき、その効果は驚くべきものです。

MimicGen: 無限のスケーラビリティを備えたデータ生成

人間のデモンストレーションからの模倣学習は、ロボットにさまざまな操作動作を実行させるためのトレーニングに効果的なパラダイムになっていることがわかります。

最も一般的な方法は、人間がさまざまな制御インターフェースを介してロボットアームを遠隔操作し、さまざまなタスクを実行する例を生成し、このデータを使用してロボットがこれらのタスクを自力で完了するようにトレーニングすることです。

しかし、この方法は時間がかかり、手間がかかります。

研究者が提起したもう一つの疑問は、これらのデータセットに実際に独自の運用スキルがどれだけ含まれているかということだ。

最新の研究では、著者らは、人間のデモンストレーションを処理することでさまざまなシナリオで大規模なデータセットを自動的に生成し、ロボットの模倣学習に使用できる新しいシステム「MimicGen」を提案しました。

具体的には:

- 人間がロボットを遠隔操作してタスクを完了し、非常に高品質のデモンストレーション データを生成しますが、時間がかかり、コストもかかります。

- 高精度の GPU アクセラレーション シミュレーション環境でロボットとシーンのデジタル ツインを作成します。

- シミュレーション内でオブジェクトを移動したり、新しいオブジェクトを置き換えたり、ロボットアームを変更したりして、基本的には手続き型生成を使用してトレーニング データを拡張します。

- 成功したシナリオをエクスポートし、トレーニングのためにニューラル ネットワークに提供します。その結果、トレーニング データのストリームがほぼ無限に生成されます。

要約すると、この研究の主な貢献は、MimicGen が、人間によるデモンストレーションでは得られないさまざまな新しいシーン構成、オブジェクト インスタンス、およびロボット アームでの模倣学習を通じて、熟練したエージェントをトレーニングするための高品質のデータを生成できることを示すことです。

MimicGen は、ピックアンドプレース、組み立てなど、さまざまな操作スキルを必要とする長いシーケンス タスクや高精度タスクに幅広く適用できます。

2 つのシミュレートされた環境と 1 つの物理的なロボット アームで、約 200 件の人間のデモンストレーションのみを使用して 50,000 件の新しいデモンストレーションが生成され、18 のタスクがカバーされました。

このアプローチは、より多くの人間のデモンストレーションを収集するよりも優れています。

MimicGen を使用して生成された合成データ (例: 10 個の人間のデモンストレーションから生成された 200 個のデモンストレーション) は、200 個の人間のデモンストレーションでトレーニングされたエージェントと同等のパフォーマンスを発揮します。

論文の詳細

問題設定

模倣学習

研究者たちは、各ロボット操作タスクをマルコフ決定プロセス (MDP) とみなし、状態空間 S をアクション空間 A にマッピングするロボット操作ポリシーを学習することを目指しています。

問題提起と仮説

私たちの目標は、タスク M で収集された人間のデモンストレーションの小さなセットで構成されるソース データセット D1 を使用し、それを使用して大規模なデータセット D (同じタスク用、または初期状態分布 D、オブジェクト、またはロボット アームが変化する可能性があるタスク バリアント用) を生成することです。

新しいデモを生成する手順は次のとおりです。

(1)研究者がデータを生成したいタスクから開始状態をサンプリングする、

(2)D1からデモンストレーションを選択して適応させ、新しいロボット軌道τ'を生成する。

(3)ロボットは現在のシーンで軌道τ'を実行する。タスクが正常に完了すると、状態とアクションのシーケンスが生成されたデータセットDに追加されます(各特定のステップの方法を参照)。次に、研究者らはシステムが利用するいくつかの仮定を概説します。

仮定 1: デルタエンドエフェクタポーズアクション空間。アクション スペース A には、エンド エフェクタ コントローラの増分ポーズ コマンドとグリッパの開閉コマンドが含まれます。

これにより、研究者はデモンストレーション内のアクションをエンドエフェクタ コントローラの一連のターゲット ポーズとして確認できるようになりました。

仮定 2: タスクは、一連の既知のオブジェクト中心のサブタスクで構成されます。 O = {o₁, ..., oₖ}をタスクM内のオブジェクトの集合とします。

研究者たちは、このタスクは一連のオブジェクト中心のサブタスクで構成されており、各サブタスクは単一のオブジェクトの座標系を基準にしていると仮定しました。研究者たちはこの配列は既知であると仮定した。

仮定 3: データ収集中、各サブタスクの開始時にオブジェクトのポーズを観察できます。各サブタスクのデータ収集中(ポリシーの展開中ではない)に、関連するオブジェクト oₛᵢ のポーズを観察できると想定しています

研究方法

研究者らは、人間のデモンストレーションの小さなソース データセットを使用して新しいデモンストレーションを生成する方法を示しました (下の図 2)。

MimicGen はまずソース データセットを複数のセグメントに解析します。各セグメントはタスク内のオブジェクト中心のサブタスクに対応します。

次に、新しいシーンでデモンストレーションを生成するために、MimicGen は各サブタスクの軌跡 (エンドエフェクタ制御ポーズのシーケンス) を生成して実行します。

このアプローチでは、ソース例から参照セグメントを選択し、新しいシーン内のオブジェクトのポーズに応じて変換し、エンドエフェクタ コントローラを使用してターゲット ポーズへのシーケンスを実行します。

ソースデータセットをオブジェクト中心のセグメントに解析する

各タスクは、オブジェクト中心のサブタスクのシーケンスで構成されます。ソースデータセット内の各軌跡 τ を複数のセグメント {τᵢ}ₘⁱ=₁ に解析します。各セグメント τᵢ はサブタスク Sᵢ(oₛᵢ) に対応します。

新しいシーンのソースデータセグメントを変換する

新しいシーンでタスクのデモンストレーションを生成するために、MimicGen はタスク内のオブジェクト中心のサブタスクごとにセグメントを生成して実行します。上の図 2 (右) に示すように、各サブタスクには 3 つの主要なステップが含まれます。

(1)ソースデータセット内の参照サブタスクセグメントを選択し、

(2)は新しいコンテキスト変換サブタスクセグメントである。

(3)シーン内のセグメントを実行する。

参照セグメントの選択: MimicGen はソースデータセットを各サブタスクに対応するセグメントに解析します。各サブタスク Sᵢ(oₛᵢ) の開始時に、MimicGen はセットから対応するセグメントを選択します。これらのセグメントは、ランダムに選択することも、関連するオブジェクトのポーズを使用して選択することもできます。

ソース サブタスク セグメントの変換: 研究者は、選択したソース サブタスク セグメント τᵢ をエンド エフェクタ コントローラのターゲット ポーズ シーケンスとして表示できます。

新しいセグメントの実行

最後に、MimicGen は、各タイム ステップでターゲット ポーズを取得し、それを増分ポーズ アクションに変換し、それをソース セグメント内の対応するグリッパーの開閉アクションとペアにして、新しいアクションを実行することにより、新しいセグメント τ′ᵢ を実行します。

上記の手順は、最後のセグメントが実行されるまで、各サブタスクに対して繰り返されます。

ただし、このプロセスは不完全である可能性があり、制御とアームの運動学の問題による小さな軌道の逸脱がミッションの失敗につながる可能性があります。

したがって、MimicGen はすべてのセグメントを実行した後にタスクの成功をチェックし、成功したデモンストレーションのみを保持します。研究者たちは、正常に生成された軌道の数と試行の総数の比率をデータ生成率と呼んでいます。

このパイプラインは、オブジェクト フレームとロボット コントローラー フレームにのみ依存します。これにより、異なる初期状態分布を持つタスク、オブジェクト (標準フレーム定義があると仮定)、およびロボット アーム (エンド エフェクタ制御フレームの規則を共有していると仮定) 間でデータ生成を実行できます。

研究者らは実験で、ロボット操作タスクごとにタスクバリアントを設計し、初期状態分布 (D)、タスク内のオブジェクト (O)、またはロボットアーム (R) を変化させ、MimicGen がこれらのバリアント間のデータ収集と模倣学習をサポートしていることを示しました。

175 の人間によるデモンストレーション、50,000 のデータセットを生成

研究者らは、MimicGen をさまざまなタスク (下の図 3 を参照) とタスクのバリエーションに適用し、ピックアンドプレース、接触の多いインタラクション、関節動作などのさまざまな操作動作の模倣学習に役立つデータを生成する方法を実証しました。

実験と結果

研究者らは、(1) MimicGen がデータを生成できる多様なコンテキストを明らかにすること、(2) 労力とデータ下流ポリシーのパフォーマンスの両面で MimicGen が追加の人間によるデモンストレーションの収集よりも優れていることを実証すること、(3) システムのさまざまな側面に関する洞察を提供すること、(4) MimicGen が現実世界のロボット アームで動作できることを実証することを目標に実験を実施しました。

MimicGenのアプリケーション

研究者らは、MimicGen の有用な特性を示すいくつかの応用シナリオを概説しています。

MimicGen データにより、ソース タスクでのエージェントのパフォーマンスが大幅に向上します。 MimicGen の簡単な応用は、関心のあるタスクの小さなデータセットを収集し、そのタスクのためにさらにデータを生成することです。 MimicGen で生成された D0 データセットを使用してトレーニングされたエージェントは、小さなソース データセットでトレーニングされたエージェントと比較して、大幅なパフォーマンスの向上を示します。

MimicGen データは、初期状態の幅広い分布の下で高性能なエージェントを生成できます。下の図 4 に示すように、初期状態 (D1、D2) の広い分布にわたって生成されたデータセットを使用してトレーニングされたエージェントは、高いパフォーマンスを実現します。

MimicGen はさまざまなオブジェクトのデータを生成できます。たとえば、「マグカップのクリーンアップ」タスクのソース データセットにはマグカップが 1 つしかありませんでしたが、研究者は MimicGen を使用して、見たことのないマグカップ (O1) と 12 個のマグカップのセット (O2) のデモンストレーションを生成しました。

MimicGen は、さまざまなロボット ハードウェア用のデータを生成できます。研究者らは、Panda アームを使用して、Square および Threading ソース データセットに MimicGen を適用し、Sawyer、IIWA、UR5e の D0 と D1 にわたって再分散されたバリアントを含むデータセットを生成しました。

MimicGen をモバイル操作に適用します。モバイル キッチン ミッションでは、MimicGen によって成功率が 2.0% から 46.7% に増加します。

MimicGen はシミュレータに依存しません。研究者らは、Isaac Gym 上に構築された Factory シミュレーション フレームワークで、ミリメートルレベルの精度を必要とする高精度タスクに MimicGen を適用することで、MimicGen が 1 つのシミュレーション フレームワークに限定されないことを実証しました。

MimicGenと人間のデータの比較

MimicGen は、少数の人間の例から大規模なデータセットを生成できます。

18 のタスクにわたって、わずか 175 の人間の例を使用して 50,000 を超える例が生成されました。 Square タスクでは、さまざまなシーン構成をカバーする 10 個の人間の例のみを使用して 1000 個の例が生成されました。

さらに、MimicGen によって生成されたデータセットは、人間の例よりもはるかに優れた高性能な戦略をトレーニングできます。

Square タスクでは、10 個の人間の例のデータからの統合効率は 11.3% であり、生成されたデータからの統合効率は 90.7% に達する可能性があります。

複雑なコーヒーの準備タスクでは成功率が 12.7% から 97.3% に向上し、高精度の組み立てタスクであるギアの組み立てでは成功率が 14.7% から 98.7% に向上しました。

MimicGen によって生成されたデータセットのパフォーマンスは、人間のデータセットに匹敵します。

Square タスクでは、人間の例 200 件で成功率が 12%、生成された例 200 件で成功率が 11.3% です。Three Piece Assembly タスクでは、人間の例 200 件で成功率が 14%、生成された例 200 件で成功率が 13.3% です。

ロボットアームのパフォーマンスに関しては、MimicGen によって生成されたデータの Stack タスクはソース ドメインでの成功率 0% から 36% に向上し、Coffee タスクでは、成功率がソース ドメインでの成功率 0% からターゲット ドメインでの成功率 14% に向上しました。

ネットユーザーの間で熱い議論

合成データがほとんどの生成 AI アクションを支配するようになります。

いつの日か、人間による注釈やデモンストレーションは過去のものとなるでしょう。

一部のネットユーザーは、これはほぼAGIと同じであり、人間のような器用さを持つロボットが突然爆発的な能力を持つようになると叫んだ。

これはまさに私が以前考えていたことです。AI の知能が人間の知能を超えるのは時間の問題です。現実世界の限られたデータは制限ではないため、データは AI によって合成され、モデルのトレーニングに投入されます。人工合成データ ⇒ AI のトレーニング ⇒ AI のスマート化 ⇒ より多くの合成データの生成 ⇒ AI モデルのトレーニングへのさらなる投入。フィードバック ループが確立されています。

あるネットユーザーは、「これを使って自動運転のトレーニングセットを生成できるだろうか?そうすれば、自動車会社はモデルのトレーニングに現実世界のデータだけに頼る必要がなくなるだろう」とコメントした。

<<: 

>>:  ダンジョンズ&ドラゴンズ: ビッグモデルへの道 テキストゲーム

ブログ    
ブログ    

推薦する

...

デジタル経済は新たな時代へ:インターネットが主導権を握り、ビッグデータと人工知能が注目の的

[[208505]]強固な経済基盤がなければ、豊かな国と強い国民は実現できません。中国共産党第19回...

OpenAI が GPT-3 の微調整機能を公開、コマンド 1 行で実現可能!精度は最大4倍に向上します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LLM にとってベクター データベースが重要なのはなぜですか?

翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...

シーメンスは自動化を推進力として変革の新たな機会を捉える

今日、企業のデジタル変革は避けられない選択肢となっており、従来の製造業では、変革の探求は実はずっと以...

ヒントン氏の「AIは常識を持つ」という予測は、どうすれば実現できるのか?ケンブリッジ大学の最新研究:子犬から学ぶ

常識は常に AI の開発を悩ませてきた難しいパズルでした。たとえ AI が囲碁で人間に勝ったとしても...

テスラがFSDベータ版のメジャーアップデートをリリース、完全自動運転に近づく

テスラは2020年10月からFSDベータ版を徐々に展開しており、選ばれた自動車所有者のグループでテス...

百度の最新アルゴリズム調整対応戦略

Baiduの最新アルゴリズム調整対応戦略、4つの対策でBaiduの最新アルゴリズム調整に対応します。...

モデル量子化とエッジAIがインタラクションを定義する方法

AI とエッジ コンピューティングの融合により、多くの業界が変革されるでしょう。移植性を向上させ、モ...

超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

脳コンピューターインターフェース分野で新たなニュースがあります。 IEEE Spectrum による...

国家人工知能実験区の数は 8 つに増えました。なぜこの 5 つの都市が選ばれたのでしょうか?

丑年の最初の仕事週に、国家人工知能イノベーションおよび応用パイロットゾーンの数が増加しました。工業情...

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

この記事は、著者が長年にわたり蓄積し収集してきた知識とスキルのマップです。編集者は、これを周囲の技術...

Zigbeeプロトコルスタックの暗号化アルゴリズムについての簡単な説明

先ほど、Zigbee プロトコル スタックのいくつかの原則と構造を紹介しました。すでに理解しているか...

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ロボットが自閉症児の社会スキルの発達を助ける

社会的支援ロボットは、自閉症スペクトラム障害(ASD)の子供たちが適切な行動とコミュニケーションを促...