強化学習の起源:迷路を歩くネズミから人間に勝つAlphaGoまで

強化学習の起源:迷路を歩くネズミから人間に勝つAlphaGoまで

強化学習となると、多くの研究者のアドレナリンが抑えきれないほど湧き上がります!これは、ゲーム AI システム、最新のロボット、チップ設計システム、その他のアプリケーションで非常に重要な役割を果たします。

強化学習アルゴリズムにはさまざまな種類がありますが、大きく分けて「モデルベース」と「モデルフリー」の 2 つのカテゴリに分けられます。

TechTalks との会話の中で、「The Birth of Intelligence」の著者である神経科学者 Daeyeol Lee 氏は、人間と動物の強化学習のさまざまなモデル、人工知能と自然知能、そして将来の研究の方向性について議論しました。​

モデルフリー強化学習

19 世紀後半、心理学者エドワード・ソーンダイクは、モデルフリー強化学習の基礎となった「効果の法則」を提唱しました。ソーンダイクは、特定の状況でプラスの効果をもたらす行動は、その状況で再び発生する可能性が高く、マイナスの効果をもたらす行動は、再び発生する可能性が低いと提唱しました。

ソーンダイクは実験でこの「効果の法則」を研究しました。 彼は迷路の箱の中に猫を入れ、猫が箱から脱出するまでの時間を計測しました。脱出するには、猫はロープやレバーなどの一連の装置を操作しなければなりません。ソーンダイクは、猫がパズルボックスとやりとりすると、脱出を容易にする行動を学習するのを観察しました。時間が経つにつれて、猫たちはどんどん速く箱から逃げるようになりました。ソーンダイクは、猫は自分の行動がもたらす報酬と罰から学ぶことができると結論付けました。 「効果の法則」は後に行動主義への道を開いた。行動主義は、刺激と反応の観点から人間と動物の行動を説明しようとする心理学の分野です。 「効果の法則」は、モデルフリー強化学習の基礎でもあります。モデルフリー強化学習では、エージェントは世界を認識し、行動を起こし、報酬を測定します。

モデルフリー強化学習では、直接的な知識や世界モデルは存在しません。 RL エージェントは、試行錯誤を通じて各アクションの結果を直接体験する必要があります。

モデルベースの強化学習

ソーンダイクの「効果の法則」は 1930 年代まで人気を保っていました。当時、別の心理学者エドワード・トールマンは、ネズミがいかにして迷路を素早く進むことを学ぶかを研究する中で、重要な洞察を得た。実験の中で、トールマンは動物が強化なしに環境について学習できることに気づきました。

たとえば、ネズミを迷路に放つと、ネズミはトンネルを自由に探索し、徐々に環境の構造を学習します。その後、ネズミを再び同じ環境に戻し、餌を見つけたり出口を見つけたりといった強化の手がかりを与えると、迷路を探索しなかった動物よりも早く目的地に到達できる。トールマンはこれを「潜在学習」と呼び、モデルベースの強化学習の基礎となりました。潜在学習により、動物や人間は自分たちの世界の精神的表現を形成し、頭の中で仮説のシナリオをシミュレートし、結果を予測できるようになります。

モデルベースの強化学習の利点は、エージェントが環境内で試行錯誤する必要がなくなることです。 モデルベースの強化学習は、チェスや囲碁などのボードゲームをマスターできる AI システムの開発に特に成功していることは強調する価値があります。これは、これらのゲームの環境が決定論的であるためと考えられます。

モデルベースとモデルフリー

一般的に言えば、モデルベースの強化学習は非常に時間がかかり、時間に極めて敏感な場合には致命的になる可能性があります。 「モデルベースの強化学習は、計算上はるかに複雑です」と Lee 氏は言います。「まずモデルを取得してメンタル シミュレーションを行い、次に神経プロセスの痕跡を見つけてアクションを実行する必要があります。ただし、モデルベースの強化学習は、必ずしもモデルフリーの RL よりも複雑というわけではありません。」環境が非常に複雑な場合、すぐに取得できる比較的単純なモデルでモデル化できれば、シミュレーションははるかにシンプルでコスト効率が高くなります。​

複数の学習モード

実際のところ、モデルベースの強化学習もモデルフリーの強化学習も完璧な解決策ではありません。強化学習システムが複雑な問題を解決しているのを目にする場合には、モデルベースとモデルフリーの強化学習の両方、あるいはさらに多くの形式の学習を使用している可能性があります。 神経科学の研究によると、人間や動物には複数の学習方法があり、脳はいつでもこれらのモードを切り替え続けていることが分かっています。 近年、複数の強化学習パラダイムを組み合わせた人工知能システムの作成への関心が高まっています。 カリフォルニア大学サンディエゴ校の科学者による最近の研究では、モデルフリー強化学習とモデルベース強化学習を組み合わせることで、制御タスクで優れたパフォーマンスを実現できることが示されています。 「AlphaGo のような複雑なアルゴリズムを見ると、モデルフリーとモデルベースの RL の両方の要素があります」と Lee 氏は言います。「盤面の構成に基づいて状態値を学習しますが、基本的にはモデルフリーの RL ですが、モデルベースの前方探索も行います。」

目覚ましい成果にもかかわらず、強化学習の進歩は依然として遅いままです。 RL モデルが複雑で予測不可能な環境に直面すると、パフォーマンスが低下し始めます。​

「私たちの脳は、さまざまな状況に対処するために進化してきた学習アルゴリズムの複雑な世界だと思います」とリー氏は語った。

脳は、これらの学習モードを常に切り替えることに加えて、意思決定に積極的に関与していないときでも、常に学習モードを維持し、更新することができます。

「さまざまな学習モジュールを維持し、同時に更新することは、人工知能システムの効率と精度を向上させるのに役立つ」と心理学者のダニエル・カーネマンは語った。

もう一つ明確にしておく必要があるのは、AI システムがコスト効率よく正しいことを学習できるように、AI システムに適切な帰納的バイアスを適用する方法です。 数十億年にわたる進化により、人間と動物は、できるだけ少ないデータで効果的に学習するために必要な帰納的バイアスを獲得しました。 帰納的バイアスは、現実世界で観察される現象からルールを要約し、モデルに特定の制約を課すこととして理解できます。これは、モデル選択、つまり仮説空間から実際のルールにもっと沿ったモデルを選択する際に役割を果たします。 「環境から得られる情報は非常に少ない」とリー氏は言う。「その情報を使って一般化しなければならない。その理由は、脳には帰納的バイアスがあり、少数の例から一般化しようとする傾向があるからだ。これは進化の産物であり、ますます多くの神経科学者がこれに興味を持っている」。しかし、帰納的バイアスは物体認識タスクではよく理解されているが、社会的関係の構築のような抽象的な問題では不明瞭になる。 これからも、まだまだ分からないことがたくさんありますよ〜〜〜​

参考文献:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning​

<<:  清華大学の黄敏烈氏との対話:自動運転分類を使用してAI対話システムを定義すると、メタバースの仮想コンパニオンはレベル5になる可能性がある

>>:  人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

現在の AI の誇大宣伝が行き詰まったらどうなるでしょうか?

AI が行き詰まった場合、サイバーセキュリティ業界は従来の方法、特に人間主導の方法に大きく依存し続...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

権威あるレポート:テンセントクラウドAIパブリッククラウドの市場シェアが初めて中国でトップ3にランクイン

ちょうど今、国際データコーポレーション(IDC)が発表した最新の「中国人工知能クラウドサービス市場調...

Zigbeeプロトコルスタックの暗号化アルゴリズムについての簡単な説明

先ほど、Zigbee プロトコル スタックのいくつかの原則と構造を紹介しました。すでに理解しているか...

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

これまで、多くの人が ChatGPT 検出器を開発してきましたが、実際に効果的に識別できるものはあり...

...

AWS が ML プラットフォーム SageMaker の 9 つの主要なアップデートを発表

【51CTO.com クイック翻訳】 Amazon Web Services (AWS) は、クラウ...

人気のSoraはDiTを最前線に押し上げ、GitHubのホットリストにも載りました。新しいバージョンのSiTに進化しました。

リリースされてから1週間近く経ちますが、OpenAIの動画生成モデルSoraの衝撃はまだまだ続きます...

アヴネットは18年連続で「トップ10ベスト国際ブランドディストリビューター」の称号を獲得しました。

[[284150]] 深圳でグローバル電子部品販売代理店優秀賞授賞式が開催されました。アヴネット中...

...

今日の世界において顔認識の重要性は何でしょうか?

顔認識技術の賛否は議論の余地がある。多くの利害関係者は利点を強調したが、批評家は欠点も指摘した。顔認...

Stack Overflow は独自の生成 AI ツールを公開するためにスタッフの 28% を削減

これは ChatGPT が直接引き起こした大規模なレイオフである可能性があります。世界最大のプログラ...

Claude3はマイクロソフトとOpenAIに警鐘を鳴らした

編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...