DeepMindの強化学習法はAIと人間のより良いコラボレーションを約束する

[[437442]]

[51CTO.com クイック翻訳]囲碁からスタークラフト、Dotaまで、多くのAI研究者が、複雑なゲームでAIが人間に勝てることを期待して、強化学習（RL）システムの作成に取り組んでいます。しかし、AIが直面しているより大きな課題は、人間と競争するのではなく、人間と協力できるシステムを構築することです。

DeepMind の AI 研究者は、さまざまなスキルレベルの人間と共同作業する DL エージェントの能力を向上させる新しい技術を開発しました。 2020 年の NeurIPS カンファレンスで発表された、Fictitious Co-Play (FCP) と呼ばれるこの手法では、強化 DL エージェントをトレーニングするために人工的に生成されたデータは必要ありません。

パズルゲーム Overcooked のテストで、FCP は、人間のプレイヤーと連携する際に、より良い結果とより少ない混乱をもたらす DL エージェントを作成しました。この技術は、人工知能システムの将来の研究に重要な方向性を提供します。

DLエージェントのトレーニング

強化学習 (RL) は、明示的な報酬、アクション、状態を使用して、あらゆるタスクを飽きることなく学習できます。十分な計算能力と時間が与えられれば、DL エージェントは環境を活用して、報酬を最大化する一連のアクション、つまり「ポリシー」を学習できます。 DL はゲームをプレイする際に非常に効果的であることが証明されています。

しかし、多くの場合、DL エージェントが学習した戦略は、人間のプレイ方法とは互換性がありません。人間と連携して作業する場合、ロボットは人間を混乱させるような動作を行うため、人間が共同で作業を計画したり分担したりする必要があるアプリケーションで使用するのは困難です。人工知能と人間の間のギャップを埋めることは、AI コミュニティにとって重要な課題となっています。

研究者たちは、他の DL エージェントや人間を含むさまざまなパートナーの習慣に適応できる多用途の DL エージェントを作成する方法を模索しています。

DLエージェントをトレーニングするさまざまな方法

ゲーム用に DL エージェントをトレーニングする従来のアプローチは、DL エージェントが自身のコピーと継続的に対戦するセルフプレイ (SP) です。セルフプレイ (SP) は、ゲームの報酬を最大化する戦略を迅速に学習するのに非常に効果的ですが、結果として得られる DL モデルは独自のゲームプレイに過剰適合し、異なる方法でトレーニングされたメンバーと協力する場合のパフォーマンスが低下します。

もう 1 つのトレーニング方法はグループプレイ (PP) です。これは、さまざまなパラメーターとアーキテクチャを持つさまざまなパートナーを使用して DL エージェントをトレーニングします。グループプレイ (PP) エージェントは、セルフプレイ (SP) よりも、競争ゲームで人間と協力する場合に優れたパフォーマンスを発揮します。しかし、状況の変化に応じてプレイヤーが協力して問題を解決し、戦略を調整しなければならない共通の報酬設定に必要な多様性がまだ欠けています。

もう 1 つのオプションは、人工的に生成されたデータを使用して DL エージェントをトレーニングする Behavioral Cloning Game (BCP) です。 BCP モデルは、環境をランダムに探索することから始めるのではなく、人間のプレイから収集されたデータに基づいてパラメータを調整します。これらのエージェントは、人間が発見したゲームパターンに近い動作を開発します。さまざまなスキルレベルやプレイスタイルを持つ多様なユーザーからデータを収集すると、DL エージェントはパートナーの行動にさらに柔軟に適応できます。したがって、人間のプレイヤーと互換性がある可能性が高くなります。ただし、人間のデータを生成するのは困難です。特に DL モデルでは、最適な設定に到達するまでに多くの練習が必要になることが多いためです。

FCCPについて

DeepMind が新たに立ち上げた DL テクノロジー FCP の主なアイデアは、人工的に生成されたデータに頼ることなく、さまざまなスタイルやスキルレベルのプレイヤーを支援できるエージェントを作成することです。

FCP トレーニングは 2 つのフェーズで実施されました。第 2 フェーズでは、DeepMind の研究者が自己再生型 DL エージェントのグループを作成しました。このようなエージェントは、異なる初期条件で独立してトレーニングされます。そのため、さまざまなパラメータ設定に重点を置き、多様な DL エージェントのプールを作成します。エージェントプールのスキルレベルを多様化するために、研究者はトレーニングプロセスのさまざまな段階で各エージェントのスナップショットを保存しました。

「最後のチェックポイントはよく訓練された『熟練した』パートナーを表し、それより前のチェックポイントはそれほど熟練していないパートナーを表します」と研究者は論文で指摘している。「注目すべきは、各パートナーに複数のチェックポイントを使用することで、この追加のスキルの多様性によって追加の訓練コストが発生しないことです。」

第 2 段階では、エージェントプール内のすべてのエージェントをパートナーとして、新しい DL モデルがトレーニングされます。このように、新しいエージェントは、異なるパラメータ値とスキルレベルを持つパートナーと協力するために戦略を適応させる必要があります。「FCPエージェントは人間のエージェントの足跡をたどり、さまざまな戦術やスキルにわたる一般的な戦略を学習する」とディープマインドの研究者は書いている。

FCPのテスト

DeepMind の AI 研究者は、Overcooked に FCP を適用しました。Overcooked は、プレイヤーがグリッドの世界を移動し、他のプレイヤーとやり取りし、一連の手順を実行して食事を調理して配達するパズルゲームです。 Overcooked は、非常にシンプルなダイナミクスを持ちながら、同時にチームメイト間の調整と労力の分配を必要とする楽しいゲームです。

FCP をテストするために、DeepMind は Overcooked を簡略化し、完全なゲームで実行されるタスクのサブセットを含めました。 AI研究者らは、強制的な調整や限られた空間など、さまざまな課題を提示する厳選されたマップのコレクションも含めました。

DeepMindはOvercookedの簡易版を使用してDLとFCPをテストしています

研究者らは、SP、PP、BCP、FCP エージェントのセットをトレーニングしました。パフォーマンスを比較するために、研究者らはまず、人間のゲームデータでトレーニングされた行動クローニング (BC) モデル、さまざまなスキルレベルでトレーニングされた SP エージェントのグループ、および低スキルを表すランダムに初期化されたエージェントの 3 つのプレイヤーグループに対して各 DL エージェントタイプをテストしました。彼らは、同じ回数のラウンドで提供された食物の量に基づいてパフォーマンスを測定しました。

結果によると、FCP は他のすべてのタイプの DL エージェントよりも大幅に優れたパフォーマンスを示し、幅広いスキルレベルとプレイスタイルにわたって汎用性が高いことが示唆されました。さらに、驚くべき発見の一つは、他のトレーニング方法がいかに脆弱であるかということでした。「これは、彼らがスキルの低いエージェントとは協力できない可能性があることを示唆している」と研究者らは書いている。

FCPはDLエージェントのトレーニングにおいて他の方法よりも優れている

次に、各タイプの RL エージェントが人間のプレイヤーと連携したときにどのようなパフォーマンスを発揮するかをテストしました。研究者らは114人のプレイヤーを対象にオンライン調査を実施し、各プレイヤーは20ラウンドずつプレイした。各ラウンドで、プレイヤーはランダムに選ばれたキッチンに配置され、どのタイプか分からないまま RL プレイヤーの 1 人とチームを組みます。

DeepMind の実験結果によると、人間と FCP の組み合わせは、他のすべてのタイプの RL エージェントよりも優れたパフォーマンスを発揮しました。

2 ラウンドごとに、参加者は RL エージェントとの体験を 1 ～ 5 のスケールで評価しました。参加者は他のエージェントよりも FCP を著しく好み、そのフィードバックからは FCP がより首尾一貫して、予測可能で、適応的に動作することが示されました。たとえば、RL エージェントはチームメイトの行動を認識しているようで、各調理環境で特定の役割を選択することで混乱を防いでいました。

一方、調査参加者は、他の DL エージェントの行動を「混沌としていて適応が難しい」と表現しました。

DeepMindは人間のプレイヤーとさまざまなDLエージェントを組み合わせる

やるべきことはまだある

研究者たちは論文の中で自分たちの研究のいくつかの限界を指摘している。たとえば、FCP エージェントは 32 の DL パートナーでトレーニングされました。これは Overcooked の簡易版には十分ですが、より複雑な環境では制限がある可能性があります。「より複雑なゲームの場合、FCP では、十分に多様な戦略のセットを表現するために、非現実的に大規模なパートナーのプールが必要になる可能性がある」と DeepMind の研究者は書いている。

報酬の定義は、複雑な領域での FCP の使用を制限するもう 1 つの課題です。 Overcooked では、報酬はシンプルで明確です。他の環境では、RL エージェントはメイン報酬が得られるまでサブ目標を達成する必要があります。サブ目標を達成する方法は、人間のプレイヤーの方法と互換性がある必要がありますが、人間のプレイヤーのデータがなければ評価や調整は困難です。「タスクの報酬関数が人間のタスクへのアプローチ方法と一致しない場合、このアプローチは、人間のデータにアクセスできないあらゆるアプローチと同様に、標準以下のDLエージェントを生み出す可能性が高い」と研究者らは書いている。

DeepMind の研究は、人間と人工知能の連携に向けた幅広い取り組みの一環です。 MIT の科学者による最近の研究では、人間と対戦して Hanabi カードゲームをプレイする際の DL エージェントの限界を調査しました。

DeepMind が新たに発表した DL テクノロジーは、人間と人工知能による問題解決のギャップを埋める重要なステップであり、研究者たちは将来の社会に役立つ人間と機械のコラボレーションを研究するための強固な基盤を築くことを期待しています。

原題: DeepMind RL メソッドは AI と人間のより良い協力を約束、著者: Ben Dickson

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: AIを使えばITの運用と保守が簡単になる

>>: 会社はあなたの顔を20万ドルで買いたいそうです！性別や年齢制限なし、ロボットは2023年に実用化される予定