2時間で人間を超えることができます! DeepMind の最新 AI が 26 の Atari ゲームをスピードラン

2時間で人間を超えることができます! DeepMind の最新 AI が 26 の Atari ゲームをスピードラン

DeepMind の AI エージェントが再び自らの力を発揮します。

よく見てください。BBF というこの男は、わずか 2 時間で 26 の Atari ゲームをマスターしました。その効率は人間に匹敵し、すべての先達を上回っています。

ご存知のように、AI エージェントは強化学習を通じて問題を解決するのに常に効果的でしたが、最大の問題は、この方法が非常に非効率的で、探索に長い時間がかかることです。

写真

BBF によってもたらされた画期的な進歩は効率性にあります。

その正式名称が「Bigger, Better, Faster」であるのも不思議ではありません。

さらに、1 枚のカードだけでトレーニングを完了できるため、必要な計算能力が大幅に低くなります。

BBF は Google DeepMind とモントリオール大学が共同で提案したもので、現在はデータとコードの両方がオープンソースになっています。

人間の最大5倍のパフォーマンス

BBF ゲームのパフォーマンスを評価するために使用される数値は IQM と呼ばれます。

IQM は、ゲームパフォーマンスのさまざまな側面を総合的に評価したスコアです。この記事の IQM スコアは、人間のパフォーマンスに基づいて正規化されています。

これまでの複数の結果と比較すると、BBF は 26 個の Atari ゲームを含む Atari 100K テスト データセットで最高の IQM スコアを達成しました。

さらに、BBF がトレーニングされた 26 のゲームでは、そのパフォーマンスは人間のパフォーマンスを上回りました。

同様のパフォーマンスを発揮する Eff.Zero と比較すると、BBF は GPU 時間をほぼ半分しか消費しません。

ただし、同様の GPU 時間を消費する SPR と SR-SPR のパフォーマンスは BBF よりはるかに劣ります。

写真

繰り返しのテストでは、一定の IQM スコアに到達した BBF の割合は高いレベルを維持しました。

全テスト実行の 1/8 以上で、人間の 5 倍のパフォーマンスを達成しました。

写真

BBF は、トレーニングを受けていない他の Atari ゲームでも、人間の半分以上の IQM スコアを達成することができました。

訓練されていない 29 のゲームだけを見ると、BBF のスコアは人間のスコアの 40% から 50% にすぎません。

写真

SR-SPRをベースに改良

BBF 研究を推進する問題は、サンプル サイズが不足している場合に深層強化学習ネットワークをどのように拡張するかということです。

この問題を研究するために、DeepMind は Atari 100K ベンチマークに注目しました。

しかし、DeepMind はすぐに、モデルのサイズを大きくするだけではパフォーマンスが向上しないことを発見しました。

写真

ディープラーニング モデルの設計では、ステップごとの更新回数 (リプレイ率、RR) が重要なパラメーターです。

特に Atari ゲームの場合、RR 値が大きいほど、ゲーム内のモデルのパフォーマンスが高くなります。

最後に、DeepMind は SR-SPR を基本エンジンとして使用し、SR-SPR の RR 値は最大 16 に達します。

総合的に検討した結果、DeepMind は BBF の RR 値として 8 を選択しました。

一部のユーザーは RR=8 の計算コストを支払いたくないと考えていることを考慮して、DeepMind は BBF の RR=2 バージョンも開発しました。

写真

DeepMind は SR-SPR の多くの側面を変更した後、自己教師ありトレーニングを使用して BBF を取得しました。これには主に次の側面が含まれます。

  • 畳み込み層のリセット強度の強化: 畳み込み層のリセット強度を高くすると、ランダムターゲットの摂動振幅が大きくなり、モデルのパフォーマンスが向上し、損失が減ります。BBFのリセット強度を高くすると、摂動振幅はSR-SPRの20%から50%に増加します。
  • ネットワークサイズの拡大:ニューラルネットワークの層数を3から15に増やし、幅を4倍に増やします。
  • 更新範囲の狭め (n): モデルのパフォーマンスを向上させるには、n の値を固定しない値にする必要があります。 BBF は 40,000 勾配ステップごとにリセットされます。各リセットの最初の 10,000 勾配ステップでは、n は 10 から 3 に指数関数的に減少します。減衰フェーズは、BBF トレーニング プロセスの 25% を占めます。
  • より大きな減衰係数(γ):学習プロセス中にγ値を増やすと、モデルのパフォーマンスが向上することがわかっています。BBFのγ値は従来の0.97から0.997に増加しました。
  • 重みの減衰: 過剰適合を避けるため、BBFの減衰は約0.1である。
  • NoisyNetの削除: 元のSR-SPRに含まれていたNoisyNetはモデルのパフォーマンスを向上させません

アブレーション実験の結果、ステップあたりの更新回数が 2 回と 8 回の場合、上記の要因が BBF のパフォーマンスに異なる程度の影響を与えることがわかりました。

写真

その中で、ハードリセットと更新範囲の縮小の影響が最も顕著です。

写真

上記の 2 つの図には記載されていない NoisyNet については、モデルのパフォーマンスへの影響は大きくありません。

写真

論文アドレス: https://arxiv.org/abs/2305.19452GitHub プロジェクトページ: https://github.com/google-research/google-research/tree/master/bigger_better_faster

参考リンク: [1] https://the-decoder.com/deepminds-new-ai-agent-learns-26-games-in-two-hours/

[2] https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

- 以上 -

<<:  5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

>>:  ChatGPTを旅の途中のプロンプトジェネレーターに変える

ブログ    

推薦する

ビッグモデルが明らかに:ユーザーレビューから金脈を抽出する方法

著者 | 崔昊レビュー | Chonglouまとめこの論文では、大規模な言語モデルと LangCha...

機械学習モデルを .NET 環境にデプロイするにはどうすればよいでしょうか?

データ中心のエンジニアにとって、Python と R はデータセンターで最も人気のあるプログラミング...

なぜ人間は自分たちよりも賢い人工知能を作り出すのでしょうか?舞台裏では複雑なネットワークサポートが行われている

人間が自分よりも賢いものを創造できる理由について考えたことがありますか?あなたは、人工知能というこの...

AI分野に新たな学者が加わりました!清華大学の胡世民が選出され、「Jitu」フレームワークは彼の研究室から生まれた

清華大学の胡世民教授が中国科学院の院士に選出されました! 2023年に両アカデミーから新たに選出され...

AI時代が到来。アンドリュー・ン氏はすべての子供に人工知能について教えるべきだと訴える

ChatGPTやGPT-4などの大型モデルの発表により、人工知能技術の進歩と応用が注目されるようにな...

次世代ビッグデータ・人工知能基盤技術の発展と動向

2018 年はオープンソース ソフトウェアの歴史の中で最もエキサイティングな年でした。2 件の IP...

Facebook は 10 億枚のソーシャル ソフトウェア写真を使用して新しい AI アルゴリズムをトレーニングします

Facebook の研究者は最近、インターネット上のランダムなラベルなし画像のセットから学習できる新...

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?

インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...

...

Googleは大規模モデルをより「インテリジェント」にし、GPT-4タスクの精度が大幅に向上しました。

Google といくつかの大学による最近の研究により、大規模なモデルが人間の「心」を持ち始めること...

MySQL インデックスの背後にあるデータ構造とアルゴリズムの基礎

インデックスの性質MySQL のインデックスの公式定義は次のとおりです: インデックスは、MySQL...

...

...

JavaScript における一般的なソートアルゴリズムの詳細な説明

諺にこうあります:雷鋒が雷鋒塔を倒し、Java が JavaScript を実装します。 Java ...

コードを入力せずに機械学習を行うことはできますか?アマゾンウェブサービスが今回大きな動きを見せた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...