ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ビッグデータダイジェスト制作

親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、ペン回しのスキルもAIロボットによって学習されました。

非常にスムーズにペンを回転させることができる上記のロボットは、NVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校の研究プロジェクトである Eureka と呼ばれるインテリジェント エージェントのおかげで実現しました。

ユーレカの指示により、ロボットは引き出しやキャビネットを開けたり、ボールを投げたりキャッチしたり、はさみを使ったりすることもできる。 Nvidia によれば、Eureka には 10 種類あり、29 種類のタスクを実行できるとのことです。

以前は、ペンの回転機能だけを、人間の専門家による手動プログラミングだけで、これほどスムーズに実現することはできなかったことを知っておく必要があります。

ロボットプレートクルミ

Eureka はロボットをトレーニングするための報酬アルゴリズムを独自に作成することができ、そのコーディング能力は強力です。独自に作成した報酬プログラムは、タスクの 83% で人間の専門家を上回り、ロボットのパフォーマンスを平均 52% 向上させることができます。

Eureka は、人間のフィードバックから勾配のない学習を行う新しい方法を開発しました。人間が提供する報酬やテキスト フィードバックを簡単に吸収して、独自の報酬生成メカニズムをさらに改善することができます。

具体的には、Eureka は OpenAI の GPT-4 を活用して、ロボットの試行錯誤学習のための報酬プログラムを作成します。つまり、このシステムは人間特有のタスクの手がかりや事前に設定された報酬パターンに依存しません。

Eureka は、 Isaac Gym の GPU アクセラレーション シミュレーションを使用することで、多数の候補報酬の長所と短所を迅速に評価し、より効率的なトレーニングを実現できます。次に、Eureka はトレーニング結果の主要な統計情報の要約を生成し、LLM (言語モデル) をガイドして報酬関数の生成を改善します。このようにして、AI エージェントはロボットへの指示を独自に改善することができます。

ユーレカフレームワーク

研究者らはまた、タスクが複雑になるほど、GPT-4 の指示がいわゆる「報酬エンジニア」による人間の指示よりも優れていることも発見した。この研究に参加した研究者たちはユーレカを「超人的な報酬エンジニア」とさえ呼んだ。

Eureka は、高レベルの推論 (エンコード) と低レベルの運動制御の間のギャップをうまく埋めます。これはいわゆる「ハイブリッド勾配アーキテクチャ」を使用します。純粋な推論ブラックボックス LLM (言語モデル) が学習可能なニューラル ネットワークをガイドします。このアーキテクチャでは、外側のループは GPT-4 を実行して報酬関数を最適化し (勾配フリー)、内側のループは強化学習を実行してロボットのコントローラーをトレーニングします (勾配ベース)。

—NVIDIA のシニア研究科学者、リンシー・「ジム」・ファン

Eureka は人間からのフィードバックを取り入れて、開発者の期待に沿うように報酬をより適切に調整することができます。 Nvidiaはこのプロセスを「インコンテキストRLHF」(人間のフィードバックからのコンテキスト学習)と呼んでいます。

Nvidia の研究チームが Eureka の AI アルゴリズム ライブラリをオープンソース化したことは注目に値します。これにより、個人や機関は、Nvidia Isaac Gym を通じてこれらのアルゴリズムを探索および実験できるようになります。 Isaac Gym は、Open USD フレームワークに基づいて 3D ツールとアプリケーションを作成するための開発フレームワークである Nvidia Omniverse プラットフォーム上に構築されています。

  • 論文リンク: https://arxiv.org/pdf/2310.12931.pdf
  • プロジェクトリンク: https://eureka-research.github.io/
  • コードリンク: https://github.com/eureka-research/Eureka

どのように評価しますか?

強化学習は過去 10 年間で大きな成功を収めてきましたが、依然として課題が残っていることを認めなければなりません。これまでにも同様の技術を導入する試みはありましたが、Eureka は、言語モデル (LLM) を使用して報酬設計を支援する L2R (Learning to Reward) と比較して、特定のタスクプロンプトが不要になるという点で際立っています。 Eureka が L2R よりも優れているのは、自由に表現できる報酬アルゴリズムを作成し、環境ソース コードを背景情報として活用できることです。

Nvidia の研究チームは、人間の報酬関数から始めることで何らかの利点が得られるかどうかを調べる調査を実施しました。この実験の目的は、元の人間の報酬関数を、最初の Eureka 反復の出力に正常に置き換えることができるかどうかを確認することです。

テストでは、NVIDIA の研究チームは、同じ強化学習アルゴリズムと同じハイパーパラメータを使用して、各タスクのコンテキストですべての最終報酬関数を最適化しました。これらのタスク固有のハイパーパラメータが適切に調整され、手作りの報酬の有効性が確保されているかどうかをテストするために、研究者らは、以前の研究に基づいて、変更を加えずに適切に調整された近似ポリシー最適化 (PPO) 実装を使用しました。研究者らは、各報酬について 5 回の独立した PPO トレーニング実行を実行し、ポリシー チェックポイントによって達成された最大タスク メトリック値の平均を報酬パフォーマンスの尺度として報告しました。

結果は、人間の設計者は一般的に関連する状態変数をよく理解しているが、効果的な報酬を設計する能力が欠けている可能性があることを示しています。

Nvidia のこの画期的な研究は、強化学習と報酬設計における新たな境地を切り開きます。彼らの一般的な報酬設計アルゴリズムである Eureka は、大規模な言語モデルとコンテキスト進化検索の力を活用して、タスク固有のプロンプトや人間の介入を必要とせずに、幅広いロボットタスクにわたって人間レベルの報酬を生成し、AI と機械学習に対する私たちの理解を大きく変えました。

<<:  杜暁曼自動機械学習プラットフォームの実践

>>: 

ブログ    

推薦する

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイ...

...

C# でのジョセフ リング アルゴリズムの簡単な分析

C# アルゴリズムを勉強しているときに、C# ジョセフ リング アルゴリズムに出会いました。ジョセフ...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

Google Brain Quoc、操作プリミティブから効率的なTransformerバリアントを検索するためのPrimerをリリース

[[426884]]モデルのパフォーマンスを向上させるには、パラメータを調整し、活性化関数を変更する...

...

ハッシュアルゴリズムを使用した ASP.NET データ暗号化

ハッシュ アルゴリズムを使用して ASP.NET データ暗号化を実装するプロセスは何ですか?私たちの...

比類のない美しさ! AIが90年前の梅蘭芳を復元:目と眉毛が感情を伝え、生きているかのよう

[[407844]]約 100 年前の白黒画像にカラーを施すと、歴史的な意味がさらに増すのでしょうか...

効率的な運用分析システムを構築するために3つのステップを使用します

これは、実際の仕事でデータを扱う学生にとって最大の問題点です。今日は、オペレーションを例に、行き詰ま...

2020年に注目すべき7つのAIトレンド

人工知能は将来人類に大きな可能性をもたらすでしょうが、もちろんいくつかの面では人類にリスクをもたらす...

台北の5G自動運転バスが試乗開始

「台北市信義路バスレーン自動運転バスイノベーション実験プロジェクト」は台北市で長らくテストされており...

AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」

システムに閉じ込められた配達員たちは反撃している。最近、海外のテクノロジーメディアWiredは、プラ...

Photoshop 2020が登場、人工知能でデザインが簡単に

Photoshop Elements 2020エディション数日前、Adobe は最新バージョンの ...

PaaS でフェイルオーバー アルゴリズムを作成する際に避けるべき 3 つの落とし穴

[[125412]]クラウド サービスの停止が発生すると、通常はフェイルオーバー メカニズムがアクテ...

顔認識アルゴリズムはどのように機能するのでしょうか?

過去 10 年間で、ディープラーニングの分野では多くの高度な新しいアルゴリズムと画期的な研究が登場し...