ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ビッグデータダイジェスト制作

親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、ペン回しのスキルもAIロボットによって学習されました。

非常にスムーズにペンを回転させることができる上記のロボットは、NVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校の研究プロジェクトである Eureka と呼ばれるインテリジェント エージェントのおかげで実現しました。

ユーレカの指示により、ロボットは引き出しやキャビネットを開けたり、ボールを投げたりキャッチしたり、はさみを使ったりすることもできる。 Nvidia によれば、Eureka には 10 種類あり、29 種類のタスクを実行できるとのことです。

以前は、ペンの回転機能だけを、人間の専門家による手動プログラミングだけで、これほどスムーズに実現することはできなかったことを知っておく必要があります。

ロボットプレートクルミ

Eureka はロボットをトレーニングするための報酬アルゴリズムを独自に作成することができ、そのコーディング能力は強力です。独自に作成した報酬プログラムは、タスクの 83% で人間の専門家を上回り、ロボットのパフォーマンスを平均 52% 向上させることができます。

Eureka は、人間のフィードバックから勾配のない学習を行う新しい方法を開発しました。人間が提供する報酬やテキスト フィードバックを簡単に吸収して、独自の報酬生成メカニズムをさらに改善することができます。

具体的には、Eureka は OpenAI の GPT-4 を活用して、ロボットの試行錯誤学習のための報酬プログラムを作成します。つまり、このシステムは人間特有のタスクの手がかりや事前に設定された報酬パターンに依存しません。

Eureka は、 Isaac Gym の GPU アクセラレーション シミュレーションを使用することで、多数の候補報酬の長所と短所を迅速に評価し、より効率的なトレーニングを実現できます。次に、Eureka はトレーニング結果の主要な統計情報の要約を生成し、LLM (言語モデル) をガイドして報酬関数の生成を改善します。このようにして、AI エージェントはロボットへの指示を独自に改善することができます。

ユーレカフレームワーク

研究者らはまた、タスクが複雑になるほど、GPT-4 の指示がいわゆる「報酬エンジニア」による人間の指示よりも優れていることも発見した。この研究に参加した研究者たちはユーレカを「超人的な報酬エンジニア」とさえ呼んだ。

Eureka は、高レベルの推論 (エンコード) と低レベルの運動制御の間のギャップをうまく埋めます。これはいわゆる「ハイブリッド勾配アーキテクチャ」を使用します。純粋な推論ブラックボックス LLM (言語モデル) が学習可能なニューラル ネットワークをガイドします。このアーキテクチャでは、外側のループは GPT-4 を実行して報酬関数を最適化し (勾配フリー)、内側のループは強化学習を実行してロボットのコントローラーをトレーニングします (勾配ベース)。

—NVIDIA のシニア研究科学者、リンシー・「ジム」・ファン

Eureka は人間からのフィードバックを取り入れて、開発者の期待に沿うように報酬をより適切に調整することができます。 Nvidiaはこのプロセスを「インコンテキストRLHF」(人間のフィードバックからのコンテキスト学習)と呼んでいます。

Nvidia の研究チームが Eureka の AI アルゴリズム ライブラリをオープンソース化したことは注目に値します。これにより、個人や機関は、Nvidia Isaac Gym を通じてこれらのアルゴリズムを探索および実験できるようになります。 Isaac Gym は、Open USD フレームワークに基づいて 3D ツールとアプリケーションを作成するための開発フレームワークである Nvidia Omniverse プラットフォーム上に構築されています。

  • 論文リンク: https://arxiv.org/pdf/2310.12931.pdf
  • プロジェクトリンク: https://eureka-research.github.io/
  • コードリンク: https://github.com/eureka-research/Eureka

どのように評価しますか?

強化学習は過去 10 年間で大きな成功を収めてきましたが、依然として課題が残っていることを認めなければなりません。これまでにも同様の技術を導入する試みはありましたが、Eureka は、言語モデル (LLM) を使用して報酬設計を支援する L2R (Learning to Reward) と比較して、特定のタスクプロンプトが不要になるという点で際立っています。 Eureka が L2R よりも優れているのは、自由に表現できる報酬アルゴリズムを作成し、環境ソース コードを背景情報として活用できることです。

Nvidia の研究チームは、人間の報酬関数から始めることで何らかの利点が得られるかどうかを調べる調査を実施しました。この実験の目的は、元の人間の報酬関数を、最初の Eureka 反復の出力に正常に置き換えることができるかどうかを確認することです。

テストでは、NVIDIA の研究チームは、同じ強化学習アルゴリズムと同じハイパーパラメータを使用して、各タスクのコンテキストですべての最終報酬関数を最適化しました。これらのタスク固有のハイパーパラメータが適切に調整され、手作りの報酬の有効性が確保されているかどうかをテストするために、研究者らは、以前の研究に基づいて、変更を加えずに適切に調整された近似ポリシー最適化 (PPO) 実装を使用しました。研究者らは、各報酬について 5 回の独立した PPO トレーニング実行を実行し、ポリシー チェックポイントによって達成された最大タスク メトリック値の平均を報酬パフォーマンスの尺度として報告しました。

結果は、人間の設計者は一般的に関連する状態変数をよく理解しているが、効果的な報酬を設計する能力が欠けている可能性があることを示しています。

Nvidia のこの画期的な研究は、強化学習と報酬設計における新たな境地を切り開きます。彼らの一般的な報酬設計アルゴリズムである Eureka は、大規模な言語モデルとコンテキスト進化検索の力を活用して、タスク固有のプロンプトや人間の介入を必要とせずに、幅広いロボットタスクにわたって人間レベルの報酬を生成し、AI と機械学習に対する私たちの理解を大きく変えました。

<<:  杜暁曼自動機械学習プラットフォームの実践

>>: 

ブログ    
ブログ    
ブログ    

推薦する

Googleが謝罪:Vision AIが人種差別的な結果を生成

新型コロナウイルスと闘っている多くの国々は、駅や空港で国民に体温検査を受けるよう命じている。この状況...

機械学習の7つのステップ

機械学習の応用は急速に成長しており、医療、電子商取引、銀行業務などのさまざまな分野で不可欠な要素とな...

機械学習で大規模なデータセットを処理する方法

機械学習で大規模なデータセットを処理する方法ビッグデータではありません…。データセットは、共通のプロ...

人工知能とは何ですか?米Googleが正式発表!

[[213130]] 1つこれは世界を変える握手です!今日、世界で最も最先端の2つの科学、 人工知...

陳作寧院士:人工知能モデルとアルゴリズムの7つの発展傾向

新しいものに直面したとき、あなたはそれに適応しますか、学びますか、拒否しますか、それとも無視しますか...

...

AI技術がデータセンターの省エネに向けた新たな戦いに参入

序文: 2020年、データセンター建設は中央政府による新インフラ戦略に正式に組み込まれ、新インフラの...

...

...

...

RLHFの可能性を深く掘り下げ、Fudan Language and Visionチームは報酬モデルの最適化を革新し、大規模モデルをより整合させます。

最初の大規模モデルアライメント技術レポート(大規模言語モデルにおけるRLHFの秘密パートI)がNeu...

ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

タンパク質予測モデルAlphaFoldがAIの世界に津波のような波を起こした後、Alphaファミリー...

...

Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

[[435977]]現在、AI技術は急速に進歩しており、毎年多くの優れた論文が発表されています。 2...

マイクロソフトはWindows 11の組み込みアプリにAI機能を導入すると報じられている。写真、スクリーンショット、描画などに新しい機能が追加される。

8月23日、マイクロソフトは過去1年間で人工知能の分野で大きな進歩を遂げており、同社の新製品のほぼ...