スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

一夜にして、AI エージェントが突然インターネット全体を支配しました。

業界のリーダーたちは、その焦点を LLM から AI エージェントに移しています。OpenAI の主任科学者 Karpathy 氏は、AI エージェントが未来であると信じています。

NvidiaのCEOであるHuang氏でさえ、人工知能の次の波は具現化された人工知能、つまり単に「AIエージェント」であると述べています。

最近、スタンフォード大学の最新の研究により、AI エージェントがマウスと直接競争してどちらが勝つかを決定することが可能になりました。

最新の研究成果はarXivで公開され、ICML 2023に受理されました。

論文アドレス: https://arxiv.org/pdf/2306.15934.pdf

エージェント対マウス

スタンフォード大学の研究者アイザック・カウバー氏は、「周囲の環境を探索し、適応する」という単純なタスクを設計した。

Kauvar 氏は、小さな空の箱にマウスを配置し、同様に 3D 仮想アリーナに AI エージェントを配置しました。

写真

次に、両方の環境に赤いボールを置きました。次に、新しいオブジェクトを誰がより早く探索できるかをテストします。

結果は、マウスがボールに素早く近づき、その後数分間ボールと相互作用を続けたことを示しました。しかし、AIエージェントはそれに気づかなかったようです。

最初のラウンドでは、マウスが勝ち、エージェントが負けます。

「これはまったく予想外のことでした」とカウバー氏は言う。「最先端のアルゴリズムを使っても、パフォーマンスにはまだ差があることに気づきました。」

そこで学者たちは、一見単純な動物の行動を AI システムの改善のヒントとして活用できるのではないかと考えています。

このアイデアに触発されて、研究者たちは「好奇心のリプレイ」と呼ばれる新しいトレーニング方法を設計しました。

この方法により、AI エージェントは最近遭遇した最も斬新で興味深い事柄について「自己反省」できるようになります。

「好奇心リプレイ」を追加した後、AIエージェントは赤いボールにもっと早く近づいて対話できるようになりました。さらに、Minecraft ベースのゲーム「Crafter」のパフォーマンスが大幅に向上します。

写真

好奇心を通して学ぶ

ご存知のとおり、真のスーパー AI エンティティとは、人間のように認識し、対話し、理解できる AI です。

好奇心は、危険な状況を避けるためであれ、生存に必要なものを見つけるためであれ、人間が世界を理解し周囲を探索するために不可欠です。

実験では、赤いボールは猛毒かもしれないし、栄養のある食事かもしれないので、それを無視すると真実を突き止めるのは難しくなるだろう。

そのため、スタンフォード大学の研究者たちは、AI エージェント、特にモデルベースの深層強化学習エージェントを駆動する動作に「好奇心のシグナル」を追加しています。

この信号は、ドアを見たら無視するのではなく開けるなど、より興味深い結果につながる行動を選択するように伝えます。

写真

Curious Replayは、好奇心に基づく優先順位付けを使用して、最も馴染みのない体験でのモデルトレーニングを強化することで、体験の再生と世界モデルのパフォーマンスの間のループを閉じます。

今回、チームは好奇心を新たな方法で利用し、AI エージェントが意思決定を行うだけでなく、世界を理解できるようにしました。

「私たちは何をするかを選ぶのではなく、何を考えるか、多かれ少なかれ過去の経験から何を学びたいかを選ぶのです」とカウバー氏は語った。

言い換えれば、彼らは AI エージェントに「自己反省」を促すことを望んでいるのです。ある意味、それに関する最も興味深い、または奇妙な(好奇心に関連した)経験。

このようにして、エージェントはさまざまな方法でオブジェクトと対話してより多くの学習を得るように促され、環境の理解が促進され、他のアイテムに対する好奇心が刺激される可能性があります。

このような自己反省を可能にするために、研究者らは「経験リプレイ」と呼ばれる AI エージェントのトレーニングに一般的に使用されている方法を変更しました。

このアプローチでは、エージェントはすべてのインタラクションのメモリを保存し、その一部をランダムに再生して再度学習します。

「経験の再生」は睡眠に関する研究からヒントを得たものです。神経科学者は、海馬と呼ばれる脳の領域が(特定のニューロンを再活性化することによって)その日の出来事を「再生」して記憶を強化することを発見しました。

AI エージェントでは、環境があまり変化せず、正しい行動が明確な報酬を受け取るシナリオでは、「経験の再生」によって高いパフォーマンスを実現できます。

しかし、研究者らは、絶えず変化する環境では、空の仮想部屋を何度も繰り返し再生するよりも、赤いボールの出現など、最も興味深い体験を再生することを AI エージェントが優先する方が理にかなっていると推論した。

彼らはこの新しい方法を「Curious Replay」と名付け、それがすぐに効果的であることを発見しました。 「突然、エージェントがボールとやり取りする速度が大幅に増加しました」とカウバー氏は語った。

写真

アルゴリズム設計の場合、優先シグナルは目新しさと驚きの組み合わせです。

写真

Curious Replay は、既存のエージェントを単純に変更したものです。これらのエージェントは、経験サンプルの数と各トレーニング バッチで計算されたモデル損失を活用して、最小限の計算オーバーヘッドで経験の再生を使用します。

この優先順位付けは、適応が求められる変化する環境で特に役立ちます。 Curious Replay は、環境の変化に応じて世界モデルを最新の状態に保つのに役立ちます。これは、効果的なアクション選択の前提条件です。

一方、研究者らは、好奇心に基づく主要な AI エージェントである Plan2Explore の動作が、適応が必要な状況では著しく悪くなる (たとえば、オブジェクトとのやり取りが遅くなる) ことを発見しました。

写真

その理由の 1 つは、世界モデルが「リプレイ」バッファーからの均一なサンプリングを使用してトレーニングされるためです。そのため、古くて退屈な体験も、より稀で新しい興味深い体験と同様にトレーニングされる可能性があります。

写真

代わりに「興味深い体験」をサンプリングすることを優先したらどうなるでしょうか? AI エージェントは、目新しさや驚きなどの好奇心のシグナルを使用して、過去の経験の面白さを測定します。

写真

この単純な変更により、適応が大幅に改善され、世界モデルのパフォーマンスが向上し、オブジェクトとのインタラクションが大幅に増加することがわかりました。

また、これは「経験の再現」を優先する既存のアプローチ(TD エラーなどの報酬関連のシグナルの使用など)よりも優れたパフォーマンスを発揮します。

写真

しかし、彼らはそこで止まりませんでした。

研究者らはまた、Minecraft に似た AI エージェントの創造的な問題解決能力をテストするための標準テストである Crafter と呼ばれるゲームをプレイする AI エージェントに Curiosity Replay を追加しました。

エージェントは、木材や石材の収集、つるはしの作成、鉄鉱石の収集方法を学習して、生き残り、適応する必要があります。

好奇心リプレイ法は、現在の最先端のスコアを約 14 から 19 に向上させます (人間のスコアは通常約 50 です)。これは「この 1 つの変更」だけで実現できると Kauvar 氏は言います。

Huggies Replay は、Crafter ベンチマークで DreamerV3 を上回る SOTA を達成し、スキルに挑戦する能力が大幅に向上したことを示しています。

写真

興味深い未来

単純なタスクと複雑なタスクの両方で好奇心リプレイアプローチが成功したことは、このアプローチが将来の幅広い AI 研究にとって重要になることを示唆しています。

「この研究の全体的な目標は、インテリジェントエージェントが過去の経験を活用し、新しい環境や変化する環境を探索する際に効率的に適応できるようにすることです。これにより、家庭用ロボットからパーソナライズされた学習ツールまで、より適応性と柔軟性に優れたテクノロジーが実現します」と論文の著者であるハーバー氏は述べた。

カウバー氏は、ハーバー氏と、バイオエンジニアリングおよび精神医学部のDHチェン教授である神経科学者カール・ダイセロス氏によって共同指導された博士研究員であり、動物の行動からインスピレーションを得て人工知能システムを改善するというテーマに興奮しており、マウスとAIエージェントをより複雑なタスクでテストし、その行動と能力を比較することを計画している。

「動物からインスピレーションを受けていると口先だけで言う人が多いですが、私たちは漠然とした橋ではなく、直接的な橋を架けています。まさに同じことをやろうとしているのです。」

カウバー氏は、このような研究が AI 研究と神経科学の間の「つながり」を強め、動物の行動やその根底にある神経プロセスの理解に貢献できることを期待している。

「このアプローチ全体が、これまで考えられなかった仮説や新たな実験につながる可能性があることは想像に難くない」と彼は言う。

著者について

アイザック・カウバー

Isaac Kauvar 氏は、スタンフォード大学の LSRF ポストドクター研究員であり、スタンフォード自律エージェント研究所で Nick Haber 氏とともに人工知能、神経科学、心理学の交差点を研究しています。

彼は、脳の複数の領域にある細胞のネットワークがどのように連携して世界をシミュレートするかに興味を持っています。

カウバー氏はスタンフォード大学で電気工学の博士号を取得しました。そこで私は、皮質全体の神経活動を記録する光学ツールを開発し、ケタミンなどの薬物の解離効果の根底にあると思われる、奇妙なことに皮質の単一の領域に局在する一種の神経振動を発見しました。

参考文献:

https://hai.stanford.edu/news/ai-agents-self-reflect-perform-b​​etter-changing-environments

https://arxiv.org/abs/2306.15934

<<:  Google Cloud の共有: AI を活用して企業価値を生み出す方法

>>:  生産性を高める 13 の AI ツール

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Microsoft の 38 TB の内部データが漏洩!秘密鍵と3万件以上の仕事上の会話が漏洩、その背後にある理由は衝撃的

何か大きなことが起こりました!数か月前、マイクロソフトの AI 研究チームは、大量のオープンソースの...

無人運転と公共交通機関の標準仮想トラックで安全性を確保

深セン初の無人バスの試験運行が始まり、我が国の科学技術力に対する信頼が高まっています。ほぼ同時期に、...

裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

意識のアップロードは、人間が将来の自分たちの存在を想像する方法として常に存在してきました。このアイデ...

Waymo - 自動運転技術の解説

[[437828]]今日は、Google の自動運転車 Waymo がどのようにそれを実現するかを見...

AIと機械学習でデータセンターを強化

人工知能(AI)と機械学習は、インテリジェントデータセンターにおいてますます重要な役割を果たしていま...

...

AIが建物の運営に及ぼす影響

昨年、ChatGPT とその他の AI 搭載サービス エンジンがリリースされて以来、このテクノロジー...

AIはインダストリー4.0の最適化段階の鍵となる

[[282511]]製造業の新たな課題製造業はインテリジェント製造に向けてアップグレードし、変革する...

量子コンピュータ、モノのインターネット、サイバーセキュリティの相互作用

量子コンピュータは多くの産業の運営方法を変えるでしょう。量子コンピューティングは社会に大きな影響を与...

量子コンピューティングの「GPT の瞬間」はもうすぐ来るのでしょうか?企業はどのように準備すべきでしょうか?

科学技術の世界では、大きな技術的進歩が一夜にして起こることはめったになく、多くの場合、何十年にもわた...

AIとMLがコネクテッドデバイスの成長を促進

COVID-19 パンデミックをきっかけに、ビジネス運営における自動化、リモート監視、制御の必要性が...

AI導入時に解決すべき無線ネットワークの運用・保守における4つの大きな課題

無線通信ネットワークの発展に伴い、今後のネットワークは周波数帯域やネットワーク構成の面でより複雑化し...

...