強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

[[433351]]

強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って人間のプレイヤーを圧倒し、シミュレーションを通じて思考能力が獲得できることも証明しました。

しかし、そのような強力な AI がチームメイトになった場合、それを率いることができますか?

MIT リンカーン研究所の研究者によるカードゲーム「Hanabi」における人間と AI エージェントのコラボレーションに関する最近の研究では、RL エージェントは個別には優れたパフォーマンスを発揮できるものの、人間のプレイヤーとペアになるとまったくダメになってしまうことが示されています。

ベストチームメイト">

出典:http://arxiv.org/pdf/2107.07630.pdf

Hanabi は、勝つためにプレイヤー同士がコミュニケーションを取り、協力し合う必要があるゲームです。このゲームでは、人間のプレイヤーはブラックボックスのニューラル ネットワーク モデルよりも、予測可能なルールベースの AI システムを好みます。

ベストチームメイト">

一般的に、最先端のゲームロボットは、深層強化学習と呼ばれるアルゴリズムを使用します。まず、ゲーム内にエージェントと一連の候補アクションが提供され、環境からのフィードバック メカニズムを通じて学習が行われます。トレーニング プロセスでは、目標を最大化し、最適なアクション シーケンスを取得するために、ランダムな探索アクションも使用されます。

深層強化学習の初期の研究では、学習のために人間のプレイヤーが提供するゲームデータに依存していました。最近、研究者は人間のデータを使わずに、純粋に自己プレイに基づいた RL エージェントを開発できるようになりました。

MIT リンカーン研究所の研究者たちは、このような強力な AI をチームメイトにする方法にもっと関心を持っています。この研究により、強化学習の応用がビデオゲームに限定されず、現実世界のアプリケーションに拡張できない理由をさらに理解できるようになります。

ベストチームメイト">

最近の強化学習研究は、AI の主な対戦相手が人間のプレイヤーや他の AI ロボットであるシングルプレイヤー ゲーム (Atari Breakout) または対戦ゲーム (StarCraft、Go) に適用されています。

これらの対決​​では、強化学習が前例のない成功を収めました。ロボットはこれらのゲームに関して先入観や想定を持たず、代わりにゼロからゲームのプレイ方法を学び、最高のプレイヤーからのデータでトレーニングされているからです。

実際、AI がゲームの遊び方を学習すると、独自のテクニックもいくつか作成するようになります。有名な例の一つは、DeepMind 社の AlphaGo がゲーム中に、人間の専門家の直感に反する動きをしたため、当時のアナリストがミスだと考えたことです。

しかし、同じ行動が異なる結果をもたらし、AIは最終的にこの動きで人間を打ち負かすことに成功しました。そのため、RL エージェントが人間と協力する場合、同じ知性が発揮される可能性があると研究者は考えています。

[[433353]]ベストチームメイト">

MITの研究者らは、2人から5人のプレイヤーが協力して特定の順番でカードをプレイするカードゲーム「Hanabi」を実験に選んだ。花火はシンプルですが、協力と限られた情報を必要とするゲームでもあります。

花火ゲームは 2010 年に発明され、2 人から 5 人のプレイヤーが 5 枚の異なる色のカードを正しい順序で一緒にプレイしてプレイします。ゲームの特徴: すべてのプレイヤーは互いのカードを見ることができますが、自分のカードを見ることはできません。

ゲームのルールによれば、プレイヤーはお互いのカード(ただしカードの色または番号のみ)をヒントにして、他のプレイヤーがどのカードをプレイすべきかを推測できるようにすることができますが、ヒントの数には制限があります。

この効率的なコミュニケーション行為こそが、花火に科学的な魅力を与えているのです。たとえば、人間はどのカードがプレイ可能かについての他のプレイヤーのヒントを自然に理解できますが、機械は本質的にこれらのヒントを理解することができません。

これまでのところ、AI プログラムは Hanabi ゲームをプレイして高得点を達成することができていますが、それは他の同様に知能の高いロボットとプレイしている場合に限られます。プログラムが最も困難で現実に近い状況になるのは、他のプレイヤーのプレイ スタイルに馴染みがない場合や、「カジュアル」(一緒にプレイしたことがない) プレイヤーがいる場合です。

近年、いくつかの研究チームがHanabiをプレイできるAIボットの開発を検討しており、その中には強化学習エージェントを使用したシンボリックAIを使用しているものもあります。

AI は主に、セルフプレイ (自分自身とプレイ)、クロスプレイ (他のタイプのエージェントとプレイ)、ヒューマンプレイ (人間と協力) などのパフォーマンスによって評価されます。

ベストチームメイト">

人間のプレイヤーとのクロスプレイは、人間と機械の協力関係を測定する上で特に重要であり、論文の実験の基礎にもなっています。

AIコラボレーションの有効性を調べるために、研究者らはルールベースのセルフプレイAIシステムであるSmartBotと、ゲームやRLアルゴリズム全体で最高ランクを獲得したOther-PlayロボットであるHanabiを使用しました。

実験では、人間の参加者がAIエージェントとHanabiゲームを数回プレイしました。毎回チームメイトのAIは異なり、実験者はどのモデルでプレイしているかわかりませんでした。

研究者たちは、客観的な指標と主観的な指標の両方に基づいて、人間と AI の連携のレベルを評価しました。客観的な指標には、スコア、エラー率などが含まれます。主観的な指標には、AI チーム メンバーに対する信頼度や快適度などの人間のプレイヤーの経験、AI の動機を理解してその行動を予測する能力が含まれます。

2 つの AI モデルの客観的なパフォーマンスには大きな差はありませんでした。しかし研究者たちは、人間のプレイヤーは他のプレイヤーと協力するように訓練されているため、Other-Play でより肯定的な主観的体験をするだろうと予想した。

参加者への調査によると、経験豊富なHanabiプレイヤーは、ルールベースのSmartBot Agentよりも他のゲームRLアルゴリズムの経験が少なく、成功の鍵は他のプレイヤーにカモフラージュの手がかりを提供するスキルでした。

たとえば、「1 キューブ」カードがテーブルに置かれ、チームメイトが 2 つのキューブを手に持っているとします。カードを指差して「これは 2 です」または「これは 4 です」と言うと、カードに関する情報をすべて伝えずに、チームメイトにこのカードをプレイするように密かに伝えていることになります。経験豊富なプレイヤーはすぐにこのヒントを理解するでしょう。しかし、同じ種類の情報を AI チームメイトに提供することは、はるかに困難であることが判明しました。

ある参加者は「チームメイトに非常に分かりやすいヒントを与えたが、全く効果がなかった。理由は分からない」と語った。

興味深い現実は、他者プレイでは「秘密の」慣習を作ることを避けており、自己プレイを実行するときに開発されたこれらの事前に決定されたルールに従うだけであるということです。これにより、AI アルゴリズムがトレーニング プログラムの一部ではなかったとしても、Other-play は他の AI アルゴリズムにとって最適なチームメイトになります。しかし研究者たちは、これは彼がトレーニング中に遭遇するであろうチームメイトのタイプについてすでに想定していたためだと考えている。

Other-play では、チームメイトもゼロショット調整に最適化されていることを前提としていることに留意してください。対照的に、人間の Hanabi プレイヤーは通常、この仮定を使用して学習しません。

試合前の定期的なセットアップと試合後のレビューは、人間のHanabiプレイヤーの間では一般的な習慣であり、人間が少数ショットの調整能力を習得することが容易になります。

研究者らは、今回の研究結果は、AIの客観的なタスクパフォ​​ーマンス(セルフプレイとクロスプレイ)が、他のAIモデルと連携する際の人間の信頼や好みとは無関係である可能性があることを示唆していると述べた。

ここで疑問が浮かび上がります。どの客観的指標が主観的な人間の好みと相関するのか?

[[433354]]ベストチームメイト">

RL ベースのエージェントをトレーニングするには膨大な量のデータが必要であるため、ループ内で人間をトレーニングすることは現実的ではありません。したがって、人間の協力者に受け入れられ、評価される AI エージェントをトレーニングしたい場合は、人間の好みに代わる、または人間の好みと密接に相関するトレーニング可能な目的関数を見つける必要があります。

同時に、研究者らは、Hanabi 実験の結果を、テストできなかった他の環境、ゲーム、またはドメインに外挿することに対して警告した。

この論文では、実験にはいくつかの限界があることも認めており、研究者らはこれに対処するために取り組んでいる。たとえば、被験者プールは小規模(参加者はわずか 29 名)で、Hanabi に精通した人々に偏っていました。つまり、彼らは AI チーム メンバーの行動方法について事前に定義された期待を持っており、RL エージェントとの否定的な経験をした可能性が高いということです。

しかし、この発見は将来の強化学習研究にとって重要な意味を持ちます。

最先端の RL エージェントが、制限された狭い範囲のゲームでは許容できる協力者になることさえできないのであれば、同じ RL 技術が、より複雑で微妙で重大なゲームや現実世界の状況に適用された場合にも、同様に有用であると期待すべきです。

強化学習については、技術コミュニティと学術コミュニティの両方で多くの議論が行われていますが、それは当然のことです。研究結果によると、RL システムの優れたパフォーマンスは、すべての可能なアプリケーションで同様に高いパフォーマンスが保証されるものではないことが示唆されています。

学習エージェントが複雑な人間とロボットの相互作用などの状況で効果的な協力者となるためには、さらなる理論的および応用的な研究が必要です。

<<:  人工知能は意識を発達させることができるか?人間の心をシミュレートすることがAIの究極の目標である

>>:  ヘルスケアにおける人工知能

ブログ    
ブログ    
ブログ    

推薦する

...

Meta AI が Omnivore をリリース: 画像、動画、3D データの分類タスクを処理できるモデル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

科学者たちは、人間の肌の感触を模倣し、さらには触覚の方向を感知して予測できる電子毛髪を備えたロボットを開発している。

ビッグデータダイジェスト制作著者: カレブ皆さんはたくさんのロボットを見たことがあると思いますが、こ...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

[[329919]]近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で...

AIはデータセキュリティをどう変えるのか

サイバーセキュリティにおける人工知能 (AI) は、データセキュリティにとって良いものでしょうか、そ...

小売業における人工知能

[[433164]] [51CTO.com クイック翻訳]周知のように、小売業界の競争は激しく、人工...

人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語

[[187416]] Huxiu 注: この記事は、4 月 3 日に The New Yorker ...

人工知能を活用した診断・治療の現状と戦略に関する研究

1. はじめにわが国では毎年、さまざまな医療機関における診察や治療の総回数が70億回を超えており、医...

ZTEのインテリジェントビデオReIDアルゴリズムは大きな進歩を遂げ、3つの主要なデータセットで世界記録を更新しました。

最近、ZTEコーポレーションは人物再識別(ReID)技術で画期的な進歩を遂げました。Market15...

2022年のNature年次指数が発表され、最も急成長した50の機関のうち31は中国の機関です。

​たった今、2022年のNature年次インデックスレポートが発表されました。上位50の研究機関のう...

ロボットは拡大し続ける分野で反復的な労働に取って代わり、人間と機械の協働の時代が到来した。

海外メディアの報道によると、テキサス州ダラスの大規模病院「メディカル・シティ・ヘルスケア」に最近、全...

人工知能とクラウドコンピューティングの組み合わせは、企業ビジネスの飛躍的成長をどのように促進するのでしょうか?

Statistaの最近のレポートによると、「AI市場の世界的価値は2025年までに年間890億ドル...

分類アルゴリズムの概要

[[151327]]決定木分類アルゴリズム決定木誘導は古典的な分類アルゴリズムです。これは、トップダ...

0コードの微調整大型モデルが人気で、わずか5ステップで、コストは150元と低い

0 コードの大規模モデルを20 ドル未満で微調整できますか?プロセスも非常に簡単で、必要なステップは...

Google の研究者が GPT-4 を使用してレビュー システムを破る AI-Guardian

海外メディアの報道によると、8月2日、Googleの研究者らは、OpenAIのGPT-4を研究アシス...