DeepMind の AI エージェントが再び自らの力を発揮します。 よく見てください。BBF というこの男は、わずか 2 時間で 26 の Atari ゲームをマスターしました。その効率は人間に匹敵し、すべての先達を上回っています。 ご存知のように、AI エージェントは強化学習を通じて問題を解決するのに常に効果的でしたが、最大の問題は、この方法が非常に非効率的で、探索に長い時間がかかることです。 写真 BBF によってもたらされた画期的な進歩は効率性にあります。 その正式名称が「Bigger, Better, Faster」であるのも不思議ではありません。 さらに、1 枚のカードだけでトレーニングを完了できるため、必要な計算能力が大幅に低くなります。 BBF は Google DeepMind とモントリオール大学が共同で提案したもので、現在はデータとコードの両方がオープンソースになっています。 人間の最大5倍のパフォーマンスBBF ゲームのパフォーマンスを評価するために使用される数値は IQM と呼ばれます。 IQM は、ゲームパフォーマンスのさまざまな側面を総合的に評価したスコアです。この記事の IQM スコアは、人間のパフォーマンスに基づいて正規化されています。 これまでの複数の結果と比較すると、BBF は 26 個の Atari ゲームを含む Atari 100K テスト データセットで最高の IQM スコアを達成しました。 さらに、BBF がトレーニングされた 26 のゲームでは、そのパフォーマンスは人間のパフォーマンスを上回りました。 同様のパフォーマンスを発揮する Eff.Zero と比較すると、BBF は GPU 時間をほぼ半分しか消費しません。 ただし、同様の GPU 時間を消費する SPR と SR-SPR のパフォーマンスは BBF よりはるかに劣ります。 写真 繰り返しのテストでは、一定の IQM スコアに到達した BBF の割合は高いレベルを維持しました。 全テスト実行の 1/8 以上で、人間の 5 倍のパフォーマンスを達成しました。 写真 BBF は、トレーニングを受けていない他の Atari ゲームでも、人間の半分以上の IQM スコアを達成することができました。 訓練されていない 29 のゲームだけを見ると、BBF のスコアは人間のスコアの 40% から 50% にすぎません。 写真 SR-SPRをベースに改良BBF 研究を推進する問題は、サンプル サイズが不足している場合に深層強化学習ネットワークをどのように拡張するかということです。 この問題を研究するために、DeepMind は Atari 100K ベンチマークに注目しました。 しかし、DeepMind はすぐに、モデルのサイズを大きくするだけではパフォーマンスが向上しないことを発見しました。 写真 ディープラーニング モデルの設計では、ステップごとの更新回数 (リプレイ率、RR) が重要なパラメーターです。 特に Atari ゲームの場合、RR 値が大きいほど、ゲーム内のモデルのパフォーマンスが高くなります。 最後に、DeepMind は SR-SPR を基本エンジンとして使用し、SR-SPR の RR 値は最大 16 に達します。 総合的に検討した結果、DeepMind は BBF の RR 値として 8 を選択しました。 一部のユーザーは RR=8 の計算コストを支払いたくないと考えていることを考慮して、DeepMind は BBF の RR=2 バージョンも開発しました。 写真 DeepMind は SR-SPR の多くの側面を変更した後、自己教師ありトレーニングを使用して BBF を取得しました。これには主に次の側面が含まれます。
アブレーション実験の結果、ステップあたりの更新回数が 2 回と 8 回の場合、上記の要因が BBF のパフォーマンスに異なる程度の影響を与えることがわかりました。 写真 その中で、ハードリセットと更新範囲の縮小の影響が最も顕著です。 写真 上記の 2 つの図には記載されていない NoisyNet については、モデルのパフォーマンスへの影響は大きくありません。 写真 論文アドレス: https://arxiv.org/abs/2305.19452GitHub プロジェクトページ: https://github.com/google-research/google-research/tree/master/bigger_better_faster 参考リンク: [1] https://the-decoder.com/deepminds-new-ai-agent-learns-26-games-in-two-hours/ [2] https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/ - 以上 - |
<<: 5 分間の技術講演 | 顔認識についてどれくらい知っていますか?
>>: ChatGPTを旅の途中のプロンプトジェネレーターに変える
「バン」デザインに加えて、指紋認証の代わりに顔認証を使用していることも、iPhone Xの不満点の1...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
PCMagによると、7月31日のニュースでは、金曜日の記者との電話会議で、FBIは人工知能プログラム...
[[270507]]画像: AMP Robotics の特注マシンは、1 分間に 80 個のアイテム...
世界中の科学者の中には、ロボットの歩行能力を強化するために取り組んでいる者もいれば、異なる視点からロ...
持続可能なワークスペースとは、環境への悪影響を最小限に抑え、廃棄物を削減するワークスペースです。もち...
中国のAI研究者の数は過去10年間で10倍に増加したが、そのほとんどは海外、主に米国に居住している。...
過去 10 年間で、機械学習への関心は爆発的に高まりました。機械学習は、コンピューター プログラム、...
現在、人工知能が何であるかをまだよく理解していない人がたくさんいます。今日は、人工知能の主要な技術と...
過去数年間、研究者たちは人工知能システムの安全性にますます関心を寄せてきました。 AI 機能のサブセ...
北京時間8月19日のreadwriteによると、2014年にGoogleに買収された英国の人工知能企...
最近、清華大学初のAI学生がついにその本性を現した。伝えられるところによると、彼の名前は華志兵。清華...