ビッグデータダイジェスト制作 親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、ペン回しのスキルもAIロボットによって学習されました。 非常にスムーズにペンを回転させることができる上記のロボットは、NVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校の研究プロジェクトである Eureka と呼ばれるインテリジェント エージェントのおかげで実現しました。 ユーレカの指示により、ロボットは引き出しやキャビネットを開けたり、ボールを投げたりキャッチしたり、はさみを使ったりすることもできる。 Nvidia によれば、Eureka には 10 種類あり、29 種類のタスクを実行できるとのことです。 以前は、ペンの回転機能だけを、人間の専門家による手動プログラミングだけで、これほどスムーズに実現することはできなかったことを知っておく必要があります。 ロボットプレートクルミ Eureka はロボットをトレーニングするための報酬アルゴリズムを独自に作成することができ、そのコーディング能力は強力です。独自に作成した報酬プログラムは、タスクの 83% で人間の専門家を上回り、ロボットのパフォーマンスを平均 52% 向上させることができます。 Eureka は、人間のフィードバックから勾配のない学習を行う新しい方法を開発しました。人間が提供する報酬やテキスト フィードバックを簡単に吸収して、独自の報酬生成メカニズムをさらに改善することができます。 具体的には、Eureka は OpenAI の GPT-4 を活用して、ロボットの試行錯誤学習のための報酬プログラムを作成します。つまり、このシステムは人間特有のタスクの手がかりや事前に設定された報酬パターンに依存しません。 Eureka は、 Isaac Gym の GPU アクセラレーション シミュレーションを使用することで、多数の候補報酬の長所と短所を迅速に評価し、より効率的なトレーニングを実現できます。次に、Eureka はトレーニング結果の主要な統計情報の要約を生成し、LLM (言語モデル) をガイドして報酬関数の生成を改善します。このようにして、AI エージェントはロボットへの指示を独自に改善することができます。 ユーレカフレームワーク 研究者らはまた、タスクが複雑になるほど、GPT-4 の指示がいわゆる「報酬エンジニア」による人間の指示よりも優れていることも発見した。この研究に参加した研究者たちはユーレカを「超人的な報酬エンジニア」とさえ呼んだ。
Eureka は人間からのフィードバックを取り入れて、開発者の期待に沿うように報酬をより適切に調整することができます。 Nvidiaはこのプロセスを「インコンテキストRLHF」(人間のフィードバックからのコンテキスト学習)と呼んでいます。 Nvidia の研究チームが Eureka の AI アルゴリズム ライブラリをオープンソース化したことは注目に値します。これにより、個人や機関は、Nvidia Isaac Gym を通じてこれらのアルゴリズムを探索および実験できるようになります。 Isaac Gym は、Open USD フレームワークに基づいて 3D ツールとアプリケーションを作成するための開発フレームワークである Nvidia Omniverse プラットフォーム上に構築されています。
どのように評価しますか?強化学習は過去 10 年間で大きな成功を収めてきましたが、依然として課題が残っていることを認めなければなりません。これまでにも同様の技術を導入する試みはありましたが、Eureka は、言語モデル (LLM) を使用して報酬設計を支援する L2R (Learning to Reward) と比較して、特定のタスクプロンプトが不要になるという点で際立っています。 Eureka が L2R よりも優れているのは、自由に表現できる報酬アルゴリズムを作成し、環境ソース コードを背景情報として活用できることです。 Nvidia の研究チームは、人間の報酬関数から始めることで何らかの利点が得られるかどうかを調べる調査を実施しました。この実験の目的は、元の人間の報酬関数を、最初の Eureka 反復の出力に正常に置き換えることができるかどうかを確認することです。 テストでは、NVIDIA の研究チームは、同じ強化学習アルゴリズムと同じハイパーパラメータを使用して、各タスクのコンテキストですべての最終報酬関数を最適化しました。これらのタスク固有のハイパーパラメータが適切に調整され、手作りの報酬の有効性が確保されているかどうかをテストするために、研究者らは、以前の研究に基づいて、変更を加えずに適切に調整された近似ポリシー最適化 (PPO) 実装を使用しました。研究者らは、各報酬について 5 回の独立した PPO トレーニング実行を実行し、ポリシー チェックポイントによって達成された最大タスク メトリック値の平均を報酬パフォーマンスの尺度として報告しました。 結果は、人間の設計者は一般的に関連する状態変数をよく理解しているが、効果的な報酬を設計する能力が欠けている可能性があることを示しています。 Nvidia のこの画期的な研究は、強化学習と報酬設計における新たな境地を切り開きます。彼らの一般的な報酬設計アルゴリズムである Eureka は、大規模な言語モデルとコンテキスト進化検索の力を活用して、タスク固有のプロンプトや人間の介入を必要とせずに、幅広いロボットタスクにわたって人間レベルの報酬を生成し、AI と機械学習に対する私たちの理解を大きく変えました。 |
以前、AI顔変換ソフトウェアZAOが一夜にして人気を博したことで、サーバーが「満杯になって崩壊」する...
2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...
JD.comは早くも2017年8月に、陝西省の地域をカバーする中国初のドローン空域の承認を取得しまし...
ケイ・フェイス・バターフィールドは忙しい人です。彼女の使命は、世界経済フォーラム (WEF) と第四...
人工知能(AI)の最悪のシナリオは、ハリウッドの大ヒット映画でおなじみのものだ。人間のような知性と知...
4月17日、市場調査会社リサーチ・アンド・マーケッツが最近発表したレポートでは、2025年までに世界...
2020CVPR 受理論文「Deep Face Super-Resolution with Iter...
言語モデルがより強力になるにつれて、特定のタスクのデータとメトリックがトレーニングと評価のボトルネッ...
1. シーン分類 顔認識:セキュリティ監視認識、顔アクセス制御、有名人の顔、VIP ID認識など。人...
私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するという...
リン・ジエル科学技術の継続的な進歩と発展に伴い、人工知能の発展は時代の必然的な流れであり、我が国の経...
データ分析と人工知能 (AI) 市場に関するニュースをフォローしている人なら誰でも、過去数年間で多く...