Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。

Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

強化学習 (RL) アルゴリズムは進化し続けています…

Google Research の研究者は、 AutoMLグラフ表現と最適化手法を使用して、解析可能で一般化可能な新しい RL アルゴリズムを学習できることを実証しました。

彼らが発見したアルゴリズムのうち 2 つは、視覚的な観察を伴う Atari ゲームなど、より複雑な設定に一般化できます。

この成果により、RL アルゴリズムはますます改善されます。

「優れている」ことの詳細については、以下を参照してください。

損失関数は計算グラフとして表現される

まず、強化学習アルゴリズムの研究の難しさに関して、研究者たちはメタ学習法を設計することが解決策になると考えています。

このアプローチにより、さまざまなタスクに自動的に一般化される新しい RL アルゴリズムの設計が可能になります。

ニューラルネットワーク構造を表すグラフ空間内を検索するNeural Architecture Search(NAS)のアイデアに触発され、研究者は損失関数を計算グラフとして表現することでRLアルゴリズムをメタ学習します

損失関数は、入力、演算子、パラメーター、出力をそれぞれ表すノードを持つ有向非巡回グラフを使用して表されます。

この表現には多くの利点があり、一般的には、新しい、解析可能で一般化可能な RL アルゴリズムを学習するために使用できます。

そして、この表現を実装するには PyGlove ライブラリを使用します。

進化に基づくメタ学習法

次に、研究者たちは進化に基づくメタ学習アプローチを使用して、関心のある RL アルゴリズムを最適化しました。

プロセスはおおよそ次のようになります。

提案されたアルゴリズムは、より困難な環境のセットでトレーニングする前に、まず障害物環境で良好なパフォーマンスを発揮する必要があります。アルゴリズムのパフォーマンスが評価され、集団の更新に使用され、パフォーマンスの優れたアルゴリズムがさらに新しいアルゴリズムに変化します。トレーニングの最後に、最もパフォーマンスの高いアルゴリズムがテスト環境で評価されます。

この実験における集団の規模は約 300 エージェントであり、研究者は 20,000 ~ 50,000 回の突然変異の後、候補損失関数の進化には約 3 日間のトレーニングが必要であることを観察しました。

トレーニングコストをさらに制御するために、DQN (Deep Q Learning Algorithm) などの人間が設計した RL アルゴリズムを最初のグループに埋め込みました。

優れた一般化性能を示した2つのアルゴリズムを発見

最終的に、彼らは優れた一般化性能を示す 2 つのアルゴリズムを発見しました。

1 つはDQNRegで、これは DQN に基づいており、Q 値に加重ペナルティを追加して、標準の二乗ベルマン誤差にします。

2 番目はDQNClippedです。これはより複雑ですが、その支配的な項は Q 値の最大値とベルマン誤差の二乗 (定数係数) という単純な形式です。

どちらのアルゴリズムも Q 値を正規化する方法と見なすことができ、どちらも異なる方法で Q 値を過大評価する問題を解決します

最終的に、DQNReg は Q 値を過小評価しますが、DQNClipped はゆっくりと真実に近づき、決して過大評価することはありません。

パフォーマンス評価に関しては、一連の古典的な制御環境を通じて、両方のアルゴリズムは、密な報酬タスク (CartPole、Acrobot、LunarLander) ではベースラインと同等であり、疎な報酬タスク (MountainCar) ではDQN を上回ることができます

研究者らは、さまざまなタスクをテストするスパース報酬 MiniGrid 環境のセットにおいて、DQNReg がトレーニング環境とテスト環境の両方でサンプル効率と最終パフォーマンスの両方においてベースラインを大幅に上回っていることを発見しました。

さらに、いくつかの MiniGrid 環境で DDQN (Double DQN) と DQNReg のパフォーマンスを視覚的に比較すると、DDQN がまだ意味のある動作をすべて学習するのに苦労しているときに、DQNReg はすでに最適な動作を効果的に学習できることがわかりました。

最後に、この研究のトレーニングは非画像ベースの環境で実行されましたが、画像ベースの Atari ゲーム環境では DQNReg アルゴリズムのパフォーマンスが向上したことが確認できました。

これは、一般化可能なアルゴリズム表現を備えた、安価だが多様なトレーニング環境のセットでのメタトレーニングが、根本的なアルゴリズムの一般化につながる可能性があることを示唆しています。

この研究成果に基づいて書かれた論文は、ICLR 2021に採択されました。研究者らは、今後、Actor-CriticアルゴリズムやオフラインRLなど、より多様なRL設定に研究を拡大していく予定です。

<<:  NLP フィールド インデックス ツール、3000 以上のコード ベース、論文や GitHub ライブラリのワンクリック検索

>>:  フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

今後の企業イノベーションを牽引する10の優れたテクノロジー

エンタープライズ テクノロジーの将来は、業界を変えるほどの大きな革新をもたらすでしょう。 5G から...

AIと5Gの登場:モノのインターネットの発展は鈍化しているのか?

現在、スマートシティや無人店舗からスマートブレスレットやスマート温度調節器まで、私たちの身の回りには...

清華大学の博士が「チップレット・アクチュアリー」サミットを提案!ムーアの法則に近づくほど、マルチチップ統合のコスト効率は向上する。

Chiplet は、製品の歩留まり、パッケージの歩留まり、さまざまなコストなどを考慮しながら、大規...

数秒で理解:小売業における画像認識

【51CTO.comオリジナル記事】スーパーマーケットに入ったところを想像してみてください。計量のた...

AIの冷却:ディープラーニングは万能薬ではない

[[202706]]近年、ディープラーニングはある程度の流行状態に入り、人々はこの技術を使ってあらゆ...

Wu Sinan の機械学習への旅: Numpy で多次元配列を作成する

[[188605]] Numpy は Python 科学計算のコアライブラリの 1 つであり、主に多...

中国科学院研究員蔡少偉:SATソルバーEDA基本エンジン

[[441194]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

マイクロソフトがAIコンテンツレビューツール「Azure AI Content Safety」を正式にリリース

10月18日、マイクロソフトは健全で調和のとれたコミュニティ環境を作り、写真やテキスト内の偏見、憎悪...

...

中国チームは、自分たちが作るペイントトランスフォーマーを提案した。ネットユーザー:これもニューラルネットワークの使用が必要です

ニューラル ネットワークが優れた画家であることは周知の事実です。スケッチを風景画に変えたり、異なるス...

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

え、まだNeRFを知らないの? NeRF は、今年コンピューター ビジョン分野で最も注目されている ...

次世代人工知能の開発方向(第2部)

[[349523]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...

Python 暗号化および復号化モジュール hashlib の 7 つの暗号化アルゴリズムの一覧

[[393258]]序文プログラムでは、MD5 sha1 など、多くの暗号化アルゴリズムをよく見かけ...

Google の最新 AI モデル「Gemini」について知っておくべきことすべて

Google Geminiとは何ですか? Gemini は、テキストだけでなく画像、ビデオ、オーディ...

人工知能は教育の未来を変える:私たちをより賢くする

[51CTO.com クイック翻訳] 人工知能が私たちの日常生活に入り込んでいることに気づいています...