チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回す方法を教え始めました。 このプロジェクトは「エージェント・ユーレカ」と呼ばれ、Nvidia、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校が共同で開発しました。彼らの研究では、GPT-4 構造の機能と強化学習の利点が組み合わされており、Eureka は洗練された報酬関数を設計できるようになりました。 GPT-4 のプログラミング機能により、Eureka は強力な報酬関数設計スキルを獲得しました。これは、ほとんどのタスクにおいて、Eureka 独自の報酬制度が人間の専門家の報酬制度よりも優れていることを意味します。これにより、ペンを回す、引き出しを開ける、クルミを回す、さらにはボールを投げたりキャッチしたり、はさみを操作するなど、人間には難しいタスクを完了できるようになります。 写真 写真 現時点ではすべてシミュレーション環境で行われていますが、かなり印象的です。 このプロジェクトはオープンソース化されており、プロジェクトのアドレスと論文のアドレスは記事の最後にあります。 論文の要点を簡単に要約してください。 この論文では、大規模言語モデル (LLM) を使用して機械学習における報酬関数を設計および最適化する方法について説明します。適切な報酬関数を設計すると機械学習モデルのパフォーマンスが大幅に向上しますが、そのような関数を設計するのは非常に難しいため、これは重要なトピックです。 研究者たちはEUREKAと呼ばれる新しいアルゴリズムを提案した。 EUREKA は LLM を使用して報酬関数を生成および改善します。テストでは、EUREKA は 29 種類の強化学習環境で人間レベルのパフォーマンスを達成し、タスクの 83% で人間の専門家が設計した報酬関数を上回りました。 EUREKA は、ペンを素早く回転させる「シャドウ ハンド」操作のシミュレーションなど、これまで手動で設計された報酬関数では解決できなかった複雑な操作タスクも解決しました。 さらに、EUREKA は、人間のフィードバックに基づいて、より効果的で人間が望む報酬関数を生成する新しい方法を提供します。 EUREKA の作業方法は、主に次の 3 つのステップで構成されます。 1. 環境をコンテキストとして: EUREKA は、環境のソース コードをコンテキストとして使用して、実行可能な報酬関数を生成します。 2. 進化的探索: EUREKA は進化的探索を通じて報酬関数を繰り返し提案し、改善します。 3. 報酬の反映: EUREKA は、ポリシー トレーニングの統計に基づいて報酬の品質のテキスト要約を生成し、報酬機能の自動的かつターゲットを絞った改善を可能にします。 この研究は、報酬関数を自動的に生成および改善する新しい効率的な方法を提供し、多くの場合、人間の専門家を上回るため、強化学習と報酬関数設計の分野に広範囲にわたる影響を与える可能性があります。 プロジェクトアドレス: https://github.com/eureka-research/Eureka 論文リンク: https://arxiv.org/pdf/2310.12931.pdf |
<<: Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました
>>: FPGA と GPU を使用したニューラル ネットワークの作成
アルゴリズムは人間の行動に基づいて「ロックイン効果」を生み出します。この法律では、ユーザーにパーソナ...
【51CTO.com クイック翻訳】ビジネスリーダーとして、企業がコンピューターベースの業務をますま...
導入従来の顧客サービス分野は、手作業に大きく依存し、データ集約的であることが特徴です。大量のユーザー...
人工知能はバブルを抜け出し、徐々に細分化された分野に入り込み、繁栄し始めており、近年ではCESやMW...
[[197493]]この記事の主な内容は機械学習と神経科学を組み合わせたものであり、読者にはこれら...
従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...
9月21日、第三者機関の最新の推計によると、人工知能チャットボット「ChatGPT」のトラフィック...
負荷分散デバイスの製造は負荷分散アルゴリズムに基づいているため、ここでその原理を調べてみましょう。ポ...
テスラロボットが家事を始める。マスク氏は最新の動画で、テスラのロボット「オプティマス・プライム」が服...
オープンソースの「ビッグコードモデル」が登場しました。 UIUC 清華大学の研究者チームは、70 億...
先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...
皆さんこんにちは。本日のサミットで Apache PyFlink のコア技術を皆さんと共有できること...