わずか 1/500 のデータで Atari ゲームをマスターしましょう!清華大学クロススクール研究所の助教授が小規模データRLモデルを提案し、AIコミュニティの波を引き起こした。

わずか 1/500 のデータで Atari ゲームをマスターしましょう!清華大学クロススクール研究所の助教授が小規模データRLモデルを提案し、AIコミュニティの波を引き起こした。

[[434129]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、ある研究が学界で幅広い注目を集め、白熱した議論を巻き起こしています。ディープマインドとグーグルはこの問題を議論するために社内非公開会議を開いたと報じられている。多くのファンを持つテクノロジー系YouTubeブロガーのYannic Kicher氏は、この論文を説明するために30分のビデオまで作成した。学者たちはこれを「完全にゲームを変える」、「RL における大きな進歩」、「これは素晴らしい」とさえ表現しています。チームの先生自身もTwitterでこう言っています。「同じデータを使って、RLエージェントがピクセルから直接人間を上回るパフォーマンスを達成したのはこれが初めてです!」これにより、一般的な強化学習が現実世界のシナリオに近づき、たとえばロボットのサンプリング効率に焦点が当てられるようになります。

さて、この記事の主役であるEfficientZeroを紹介しましょう。

EfficientZero アルゴリズムは、清華大学学際情報科学研究所の Gao Yang 氏のチームによる「限られたデータで Atari ゲームをマスターする」という新しい研究で提案されました。 EfficientZero のパフォーマンスは 2 億フレームで DQN (Deep Q-Learning) に近いですが、消費するデータは 500 分の 1 です。わずか 2 時間のトレーニングで、現実に近い複雑な状況の Atari ゲームにおいて、平均的な人間のレベルの 190.4%、つまりパフォーマンスの中央値の 116.0% をゼロから達成できます。

論文リンク: https://arxiv.org/abs/2111.00210#

サンプル効率は強化学習における最も厄介な課題であり、重要な手法のトレーニングには数百万 (または数十億) の環境ステップが必要です。 MuZero モデルから改良された効率的な視覚 RL アルゴリズムである EfficientZero は、ゼロからトレーニングされ、最終的にわずか 2 時間のトレーニング データで Atari の同じ条件下での平均的な人間のパフォーマンスを上回りました。

MuZero は、ツリーベースの検索と学習済みモデルを組み合わせて、基礎となるダイナミクスの知識を必要とせずに、さまざまな困難で視覚的に複雑なドメイン全体で優れたパフォーマンスを実現します。 AI Technology Review は以前の記事で MuZero について報告しました: DeepMind がまた大きな動きを見せました!新しいアルゴリズム「MuZero」がNatureでトップとなり、AIは人間の計画に一歩近づきました。では、なぜ Atari ゲームを選ぶのでしょうか? Atari ゲームには多数のシーンとさまざまなルールがあり、ある程度複雑な現実環境に適合しているため、多要素環境での強化学習アルゴリズムを検証するためのパフォーマンステスト標準として長い間使用されてきました。 EfficientZero の低いサンプル複雑性と高いパフォーマンスにより、強化学習を現実世界の適用性に近づけることができます。

図に示すように、EfficientZero は、人間の平均標準スコアの中央値で、以前の SoTA のパフォーマンスをそれぞれ 170% と 180% 上回っています。これは、Atari 100k ベンチマークで平均的な人間のパフォーマンスを上回った最初のアルゴリズムです。

強化学習は困難な問題に対して大きな成功を収めてきました。 2015年にDeepMindが開発したDQNネットワーク、中国の囲碁世界チャンピオンである柯潔を破ったAlphaGo、Dota2でチーム戦ができるOpenAI Fiveなど。しかし、これらは膨大な量のデータに基づいて訓練された戦略です。 AlphaZero がチェスの初心者からトップ プレイヤーになるまでに 2,100 万回のゲームを要しました。プロのチェス プレイヤーは 1 日に約 5 回のゲームしか完了できません。つまり、人間のプレイヤーが同じ量の経験を積むには 11,500 年かかることになります。

サンプルの複雑さは、シミュレーションやゲームに RL アルゴリズムを適用する上で障害にはなりません。ロボット工学、ヘルスケア、広告推奨システムなどの現実の問題に関しては、サンプルの複雑さを低く抑えながら高いパフォーマンスを達成することが重要です。

過去数年間で、サンプル効率の高い強化学習において大きな進歩を遂げてきました。実際の環境からのデータとモデルからの「想像上のデータ」の両方を使用して、ポリシーをトレーニングできます。しかし、ほとんどの成功は州ベースの環境において起こります。たとえば、画像ベースの環境では、両方のニーズを満たす必要があることは珍しくありません。MuZero と Dreamer V2 は超人的なパフォーマンスを発揮しますが、サンプル効率は良くありません。SimPLe などの他の方法は非常に効果的ですが、パフォーマンスは劣ります。最近、モデルフリーのアプローチは、データ拡張や自己教師あり学習法などのデータ効率の高いメカニズムに適用され、ある程度の成功を収めています。しかし、それはまだ人間の期待には及ばない。

サンプル効率を改善し、優れたパフォーマンスを維持するために、モデルベースのビジュアル RL エージェントに、自己教師あり環境モデル、モデル複合エラーを軽減するメカニズム、およびポリシー外の問題を修正する方法が不可欠です。 EfficientZero は、MuZero に基づいて、「時間的な対照的な一貫性の使用、予測される報酬の不確実性の低減、オフライン ポリシー値のオフセットの修正」という 3 つの点を改善します。

DeepMind Control (DMControl) スイートのシミュレートされたロボット環境での実験では、EfficientZero は最先端のパフォーマンスを達成し、実際の状態から直接学習するモデルである状態 SAC を上回り、EfficientZero の有効性がさらに検証されました。深層強化学習アルゴリズムが限られたデータによって「窒息」する時代はもう存在しないかもしれない。

[[434130]]

Gao Yang: 博士、清華大学学際情報科学研究所助教授。彼はカリフォルニア大学バークレー校で博士号を取得し、清華大学コンピュータサイエンス学部で学士号を取得しました。彼の主な研究分野はコンピュータービジョンとロボット工学です。

<<:  プライバシー技術: 「AI レース」に勝つための秘密のアドバンテージ

>>:  小さなデータ、大きな展望!米国のシンクタンクの最新レポート:長い間無視されてきた小規模データ人工知能の可能性は計り知れない

ブログ    
ブログ    
ブログ    

推薦する

認知と論理的思考の観点から自然言語理解を議論する

[[425002]]自然言語理解 (NLU) は難しい問題です。数十年前の AI の誕生から現在に至...

劉強東:AIは今後20年間ですべての産業を変革する中核的な力となる

1956年にアメリカのダートマス大学で開催された学術会議が、世界的なAI研究の始まりとなりました。 ...

中国と米国の差を縮め、人工知能開発の主導権を徐々に握る

60年以上の発展を経て、人工知能は人々の仕事や日常生活に入り込み、影響を与えており、新たな一般技術と...

2021年中間レビュー: AIの浮き沈み、希望の頂点から失望の谷まで

[[408503]] 1. 2021 年上半期に AI でどのような新たなブレークスルーが達成されま...

...

T1000が実現:我が国は液体金属駆動ロボットを開発中

[[247070]]液体ロボットといえば、誰もが真っ先に思い浮かべるのは映画「ターミネーター」のT1...

...

ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料

「光るクラゲがゆっくりと海から浮上し、夜空に輝く星座になります」と、Morph Studio で見た...

...

2021年から2030年までのドローン産業のトップ10の発展トレンド

民間ドローン産業は2010年頃から勢いを増し始め、特に2014年から2017年にかけて民生用ドローン...

アルゴリズムが力を発揮します!なぜ人間と人工知能はますます似てきているのでしょうか?

[[256247]]アルゴリズムは私たちにどう考えるべきかを教え、それが私たちを変えています。コン...

...

ドローン技術はスマートシティの発展をどのように促進できるのでしょうか?

今日、都市化は世界の多くの地域で進んでおり、人口が増加する中、環境への影響を減らしながら増大する課題...

単純なOEMを拒否し、人工知能を備えた製造業は明るい未来を持っています

国民経済と国民生活に関わる基幹産業として、製造業における新技術や新政策は主要メディアの注目の的となっ...

「幻獣パル」が大ヒット、大手企業も黙っていられない。このゲームはAIが設計?

最近、多くのソーシャル ネットワーキング プラットフォームに、オープン ワールド サバイバル ゲーム...