AIが人間の知能を超えるかどうかという疑問の答えがついに明らかに！李菲菲の弟子の新作は輪を破り、5万の合成データが人間の例を粉砕し、コーヒーを淹れる動作は超スムーズ

AI界の巨人ジェフリー・ヒントン氏は「テクノロジー企業は今後18カ月で、現在のGPT-4の100倍の計算能力を使って新しいモデルを訓練するだろう」と語った。

より大きなパラメータを持つモデルは、膨大な計算能力を必要とするだけでなく、データに対する要件も高くなります。

しかし、より高品質なデータはどこから得られるのでしょうか?

Nvidiaの上級科学者ジム・ファン氏は、「合成データは、私たちの膨大なモデルに数兆個のトークンを提供するだろう」と語った。

一例として、NVIDIA と UT の研究者は最新の研究で、大量のロボットトレーニングデータを生成できる MimicGen システムを提案しました。

論文アドレス: https://arxiv.org/pdf/2310.17596.pdf

具体的なプロセスとしては、デジタルツイン技術を用いて現実世界における人間の操作データをシミュレートされた環境で再現するというものです。

MimicGen は、200 回未満の人間によるデモンストレーションで、18 のタスク、複数のシミュレーション環境、さらには現実世界でも 50,000 のトレーニングデータを自律的に生成することができました。

この研究のすべてのデータセットはオープンソースであることは言及する価値があります。

ジム・ファン氏の見解では、合成データとシミュレーションは、より多くのトレーニングデータを取得し、学習アルゴリズムの進歩を維持できるため、AI の開発にとって非常に重要です。これはロボット工学分野だけでなく、他の AI 分野にも適用できます。

ネットワークからの高品質なリアルトークンが急速に不足しています。人工的に合成されたデータから人工知能を獲得することが、今後の発展の方向となるでしょう。

正確に言えば、MimicGen は「スケーリング法則」を維持するための合成データとシミュレーションの威力を実証しています。

スムーズにコーヒーを準備する

MimicGen が実際にどのように機能するか、いくつかのデモを見てみます。

以下の例では、MimicGen はわずか 10 回の人間のデモンストレーションから 3 つの異なる環境分布に対して 1,000 回のデモンストレーションを生成しました。

以下では、ビルディングブロックの積み重ね、「針に糸を通す」、コーヒーの準備、組み立てなど、複数の異なるタスクと環境分布にわたって MimicGen によって生成されたいくつかのデータセットを示します。

MimicGen は、これまで見たことのないカップを引き出しに収納することもできます。

さまざまなロボットアームを柔軟に操作することもできます。

長くて複雑なタスクにおける MimicGen のパフォーマンス。

さらに、MimicGen は、ミリメートルレベルの精度が求められる接触作業にも適しています。

コーヒーを淹れるプロセスは非常にスムーズです。

他の生成された例では、合成データは高性能な表示を実現でき、その効果は驚くべきものです。

MimicGen: 無限のスケーラビリティを備えたデータ生成

人間のデモンストレーションからの模倣学習は、ロボットにさまざまな操作動作を実行させるためのトレーニングに効果的なパラダイムになっていることがわかります。

最も一般的な方法は、人間がさまざまな制御インターフェースを介してロボットアームを遠隔操作し、さまざまなタスクを実行する例を生成し、このデータを使用してロボットがこれらのタスクを自力で完了するようにトレーニングすることです。

しかし、この方法は時間がかかり、手間がかかります。

研究者が提起したもう一つの疑問は、これらのデータセットに実際に独自の運用スキルがどれだけ含まれているかということだ。

最新の研究では、著者らは、人間のデモンストレーションを処理することでさまざまなシナリオで大規模なデータセットを自動的に生成し、ロボットの模倣学習に使用できる新しいシステム「MimicGen」を提案しました。

具体的には：

- 人間がロボットを遠隔操作してタスクを完了し、非常に高品質のデモンストレーションデータを生成しますが、時間がかかり、コストもかかります。

- 高精度の GPU アクセラレーションシミュレーション環境でロボットとシーンのデジタルツインを作成します。

- シミュレーション内でオブジェクトを移動したり、新しいオブジェクトを置き換えたり、ロボットアームを変更したりして、基本的には手続き型生成を使用してトレーニングデータを拡張します。

- 成功したシナリオをエクスポートし、トレーニングのためにニューラルネットワークに提供します。その結果、トレーニングデータのストリームがほぼ無限に生成されます。

要約すると、この研究の主な貢献は、MimicGen が、人間によるデモンストレーションでは得られないさまざまな新しいシーン構成、オブジェクトインスタンス、およびロボットアームでの模倣学習を通じて、熟練したエージェントをトレーニングするための高品質のデータを生成できることを示すことです。

MimicGen は、ピックアンドプレース、組み立てなど、さまざまな操作スキルを必要とする長いシーケンスタスクや高精度タスクに幅広く適用できます。

2 つのシミュレートされた環境と 1 つの物理的なロボットアームで、約 200 件の人間のデモンストレーションのみを使用して 50,000 件の新しいデモンストレーションが生成され、18 のタスクがカバーされました。

このアプローチは、より多くの人間のデモンストレーションを収集するよりも優れています。

MimicGen を使用して生成された合成データ (例: 10 個の人間のデモンストレーションから生成された 200 個のデモンストレーション) は、200 個の人間のデモンストレーションでトレーニングされたエージェントと同等のパフォーマンスを発揮します。

論文の詳細

問題設定

模倣学習

研究者たちは、各ロボット操作タスクをマルコフ決定プロセス (MDP) とみなし、状態空間 S をアクション空間 A にマッピングするロボット操作ポリシーを学習することを目指しています。

問題提起と仮説

私たちの目標は、タスク M で収集された人間のデモンストレーションの小さなセットで構成されるソースデータセット D1 を使用し、それを使用して大規模なデータセット D (同じタスク用、または初期状態分布 D、オブジェクト、またはロボットアームが変化する可能性があるタスクバリアント用) を生成することです。

新しいデモを生成する手順は次のとおりです。

（１）研究者がデータを生成したいタスクから開始状態をサンプリングする、

（２）D1からデモンストレーションを選択して適応させ、新しいロボット軌道τ'を生成する。

（３）ロボットは現在のシーンで軌道τ'を実行する。タスクが正常に完了すると、状態とアクションのシーケンスが生成されたデータセットDに追加されます（各特定のステップの方法を参照）。次に、研究者らはシステムが利用するいくつかの仮定を概説します。

仮定 1: デルタエンドエフェクタポーズアクション空間。アクションスペース A には、エンドエフェクタコントローラの増分ポーズコマンドとグリッパの開閉コマンドが含まれます。

これにより、研究者はデモンストレーション内のアクションをエンドエフェクタコントローラの一連のターゲットポーズとして確認できるようになりました。

仮定 2: タスクは、一連の既知のオブジェクト中心のサブタスクで構成されます。 O = {o₁, ..., oₖ}をタスクM内のオブジェクトの集合とします。

研究者たちは、このタスクは一連のオブジェクト中心のサブタスクで構成されており、各サブタスクは単一のオブジェクトの座標系を基準にしていると仮定しました。研究者たちはこの配列は既知であると仮定した。

仮定 3: データ収集中、各サブタスクの開始時にオブジェクトのポーズを観察できます。各サブタスクのデータ収集中（ポリシーの展開中ではない）に、関連するオブジェクト oₛᵢ のポーズを観察できると想定しています。

研究方法

研究者らは、人間のデモンストレーションの小さなソースデータセットを使用して新しいデモンストレーションを生成する方法を示しました (下の図 2)。

MimicGen はまずソースデータセットを複数のセグメントに解析します。各セグメントはタスク内のオブジェクト中心のサブタスクに対応します。

次に、新しいシーンでデモンストレーションを生成するために、MimicGen は各サブタスクの軌跡 (エンドエフェクタ制御ポーズのシーケンス) を生成して実行します。

このアプローチでは、ソース例から参照セグメントを選択し、新しいシーン内のオブジェクトのポーズに応じて変換し、エンドエフェクタコントローラを使用してターゲットポーズへのシーケンスを実行します。

ソースデータセットをオブジェクト中心のセグメントに解析する

各タスクは、オブジェクト中心のサブタスクのシーケンスで構成されます。ソースデータセット内の各軌跡 τ を複数のセグメント {τᵢ}ₘⁱ=₁ に解析します。各セグメント τᵢ はサブタスク Sᵢ(oₛᵢ) に対応します。

新しいシーンのソースデータセグメントを変換する

新しいシーンでタスクのデモンストレーションを生成するために、MimicGen はタスク内のオブジェクト中心のサブタスクごとにセグメントを生成して実行します。上の図 2 (右) に示すように、各サブタスクには 3 つの主要なステップが含まれます。

（１）ソースデータセット内の参照サブタスクセグメントを選択し、

（２）は新しいコンテキスト変換サブタスクセグメントである。

（３）シーン内のセグメントを実行する。

参照セグメントの選択: MimicGen はソースデータセットを各サブタスクに対応するセグメントに解析します。各サブタスク Sᵢ(oₛᵢ) の開始時に、MimicGen はセットから対応するセグメントを選択します。これらのセグメントは、ランダムに選択することも、関連するオブジェクトのポーズを使用して選択することもできます。

ソースサブタスクセグメントの変換: 研究者は、選択したソースサブタスクセグメント τᵢ をエンドエフェクタコントローラのターゲットポーズシーケンスとして表示できます。

新しいセグメントの実行

最後に、MimicGen は、各タイムステップでターゲットポーズを取得し、それを増分ポーズアクションに変換し、それをソースセグメント内の対応するグリッパーの開閉アクションとペアにして、新しいアクションを実行することにより、新しいセグメント τ′ᵢ を実行します。

上記の手順は、最後のセグメントが実行されるまで、各サブタスクに対して繰り返されます。

ただし、このプロセスは不完全である可能性があり、制御とアームの運動学の問題による小さな軌道の逸脱がミッションの失敗につながる可能性があります。

したがって、MimicGen はすべてのセグメントを実行した後にタスクの成功をチェックし、成功したデモンストレーションのみを保持します。研究者たちは、正常に生成された軌道の数と試行の総数の比率をデータ生成率と呼んでいます。

このパイプラインは、オブジェクトフレームとロボットコントローラーフレームにのみ依存します。これにより、異なる初期状態分布を持つタスク、オブジェクト (標準フレーム定義があると仮定)、およびロボットアーム (エンドエフェクタ制御フレームの規則を共有していると仮定) 間でデータ生成を実行できます。

研究者らは実験で、ロボット操作タスクごとにタスクバリアントを設計し、初期状態分布 (D)、タスク内のオブジェクト (O)、またはロボットアーム (R) を変化させ、MimicGen がこれらのバリアント間のデータ収集と模倣学習をサポートしていることを示しました。

175 の人間によるデモンストレーション、50,000 のデータセットを生成

研究者らは、MimicGen をさまざまなタスク (下の図 3 を参照) とタスクのバリエーションに適用し、ピックアンドプレース、接触の多いインタラクション、関節動作などのさまざまな操作動作の模倣学習に役立つデータを生成する方法を実証しました。

実験と結果

研究者らは、(1) MimicGen がデータを生成できる多様なコンテキストを明らかにすること、(2) 労力とデータ下流ポリシーのパフォーマンスの両面で MimicGen が追加の人間によるデモンストレーションの収集よりも優れていることを実証すること、(3) システムのさまざまな側面に関する洞察を提供すること、(4) MimicGen が現実世界のロボットアームで動作できることを実証することを目標に実験を実施しました。

MimicGenのアプリケーション

研究者らは、MimicGen の有用な特性を示すいくつかの応用シナリオを概説しています。

MimicGen データにより、ソースタスクでのエージェントのパフォーマンスが大幅に向上します。 MimicGen の簡単な応用は、関心のあるタスクの小さなデータセットを収集し、そのタスクのためにさらにデータを生成することです。 MimicGen で生成された D0 データセットを使用してトレーニングされたエージェントは、小さなソースデータセットでトレーニングされたエージェントと比較して、大幅なパフォーマンスの向上を示します。

MimicGen データは、初期状態の幅広い分布の下で高性能なエージェントを生成できます。下の図 4 に示すように、初期状態 (D1、D2) の広い分布にわたって生成されたデータセットを使用してトレーニングされたエージェントは、高いパフォーマンスを実現します。

MimicGen はさまざまなオブジェクトのデータを生成できます。たとえば、「マグカップのクリーンアップ」タスクのソースデータセットにはマグカップが 1 つしかありませんでしたが、研究者は MimicGen を使用して、見たことのないマグカップ (O1) と 12 個のマグカップのセット (O2) のデモンストレーションを生成しました。

MimicGen は、さまざまなロボットハードウェア用のデータを生成できます。研究者らは、Panda アームを使用して、Square および Threading ソースデータセットに MimicGen を適用し、Sawyer、IIWA、UR5e の D0 と D1 にわたって再分散されたバリアントを含むデータセットを生成しました。

MimicGen をモバイル操作に適用します。モバイルキッチンミッションでは、MimicGen によって成功率が 2.0% から 46.7% に増加します。

MimicGen はシミュレータに依存しません。研究者らは、Isaac Gym 上に構築された Factory シミュレーションフレームワークで、ミリメートルレベルの精度を必要とする高精度タスクに MimicGen を適用することで、MimicGen が 1 つのシミュレーションフレームワークに限定されないことを実証しました。

MimicGenと人間のデータの比較

MimicGen は、少数の人間の例から大規模なデータセットを生成できます。

18 のタスクにわたって、わずか 175 の人間の例を使用して 50,000 を超える例が生成されました。 Square タスクでは、さまざまなシーン構成をカバーする 10 個の人間の例のみを使用して 1000 個の例が生成されました。

さらに、MimicGen によって生成されたデータセットは、人間の例よりもはるかに優れた高性能な戦略をトレーニングできます。

Square タスクでは、10 個の人間の例のデータからの統合効率は 11.3% であり、生成されたデータからの統合効率は 90.7% に達する可能性があります。

複雑なコーヒーの準備タスクでは成功率が 12.7% から 97.3% に向上し、高精度の組み立てタスクであるギアの組み立てでは成功率が 14.7% から 98.7% に向上しました。

MimicGen によって生成されたデータセットのパフォーマンスは、人間のデータセットに匹敵します。

Square タスクでは、人間の例 200 件で成功率が 12%、生成された例 200 件で成功率が 11.3% です。Three Piece Assembly タスクでは、人間の例 200 件で成功率が 14%、生成された例 200 件で成功率が 13.3% です。

ロボットアームのパフォーマンスに関しては、MimicGen によって生成されたデータの Stack タスクはソースドメインでの成功率 0% から 36% に向上し、Coffee タスクでは、成功率がソースドメインでの成功率 0% からターゲットドメインでの成功率 14% に向上しました。

ネットユーザーの間で熱い議論

合成データがほとんどの生成 AI アクションを支配するようになります。

いつの日か、人間による注釈やデモンストレーションは過去のものとなるでしょう。

一部のネットユーザーは、これはほぼAGIと同じであり、人間のような器用さを持つロボットが突然爆発的な能力を持つようになると叫んだ。

これはまさに私が以前考えていたことです。AI の知能が人間の知能を超えるのは時間の問題です。現実世界の限られたデータは制限ではないため、データは AI によって合成され、モデルのトレーニングに投入されます。人工合成データ ⇒ AI のトレーニング ⇒ AI のスマート化 ⇒ より多くの合成データの生成 ⇒ AI モデルのトレーニングへのさらなる投入。フィードバックループが確立されています。

あるネットユーザーは、「これを使って自動運転のトレーニングセットを生成できるだろうか？そうすれば、自動車会社はモデルのトレーニングに現実世界のデータだけに頼る必要がなくなるだろう」とコメントした。

<<:

>>: ダンジョンズ&ドラゴンズ: ビッグモデルへの道テキストゲーム