脳も分散強化学習を使用しているのでしょうか?ディープマインド社の新しい研究がネイチャー誌に掲載

分散強化学習は、囲碁やスタークラフトなどのゲームでインテリジェントエージェントが使用する手法ですが、DeepMind の研究では、この学習方法が脳内の報酬メカニズムにも新たな説明を与える、つまり脳もこのアルゴリズムを適用していることが示されています。この発見は分散強化学習の可能性を証明するものであり、DeepMind の研究者は「現在の AI 研究は正しい方向に進んでいる」とさらに確信するようになりました。

ドーパミンは快楽を表す脳の信号としてよく知られています。物事が予想以上にうまくいけば、脳はより多くのドーパミンを放出します。

人間の脳には、快い出来事に対する反応を制御し、ドーパミンを放出するニューロンによって媒介される報酬経路があります。たとえば、有名なパブロフの犬の実験では、犬がベルの音を聞いて唾液を分泌し始めたとき、この反応は犬が報酬を受け取ったからではなく、むしろ脳内のドーパミン細胞が次の報酬について行った予測によるものでした。

これまでの研究では、これらのドーパミンニューロンは同じように報酬を予測するはずだと示唆されていた。

しかし最近、DeepMind の研究者たちは、分散強化学習アルゴリズムを使用することで、各ドーパミンニューロンが報酬を非常に異なる方法で予測し、異なるレベルの「悲観主義」と「楽観主義」に適応していることを発見しました。研究者たちは、このアルゴリズムを使ってドーパミン細胞が脳の行動、感情、その他の側面に与える影響を研究し、説明したいと考えています。この研究結果は昨日ネイチャー誌に掲載された。

Nature 論文リンク: https://www.nature.com/articles/s41586-019-1924-6

強化学習アルゴリズムとドーパミン報酬・罰メカニズムの研究

強化学習は、神経科学と AI を結びつける最も初期かつ最も影響力のある研究の 1 つです。 1980 年代後半、コンピューターサイエンスの研究者は、報酬と罰だけをトレーニング信号として使用して複雑な動作を実行する方法を学習できるアルゴリズムの開発に取り組んでいました。これらの報酬は、彼らにとって有益なあらゆる行動を強化します。

報酬予測問題を解決する上で重要なブレークスルーとなったのは、時間差分アルゴリズム (TD) です。TD は将来の総報酬を計算するのではなく、現在の報酬と将来の予想報酬の合計を予測しようとします。次の瞬間が来ると、新しい予測結果が予想結果と比較されます。不一致がある場合、アルゴリズムは 2 つの間の差を計算し、この「時間差」を使用して古いバージョンの予測を新しいバージョンに調整します。

継続的なトレーニングにより、「期待」と「現実」が徐々に一致するようになり、予測チェーン全体がますます正確になります。

同時に、多くの神経科学研究者はドーパミンニューロンの行動研究に注目しています。今後の報酬に直面すると、ドーパミンニューロンは「予測」および「推測」された値を多くの脳領域に送信します。

これらのニューロンの「発火」行動は報酬の大きさと多少関係がありますが、これらの反応は外部の感覚入力に依存することが多く、生物がより多くの経験を積むにつれて、特定のタスクのパフォーマンスも変化します。たとえば、特定の刺激に対して脳が慣れてしまうと、その刺激に対する報酬予測は少なくなります。

一部の研究者は、特定のドーパミンニューロンの反応が報酬予測の抜け穴を明らかにすることに気付きました。つまり、ニューロンが実際に送信した期待は、ニューロンが生成するように訓練された「期待」とは常に多かれ少なかれ異なるのです。

したがって、研究者らは、脳が TD アルゴリズムを使用して報酬予測の誤差を計算し、それをドーパミン信号を介して脳のさまざまな部分に送信して学習行動を促進していると示唆しています。それ以来、ドーパミンの報酬予測理論は数万件の実験で徐々に確認され、神経科学で最も成功した定量的理論の1つになりました。

TD がドーパミンの報酬と罰のメカニズムの研究に応用されて以来、コンピューター科学者は報酬と罰のメカニズムから学習するためのアルゴリズムを継続的に最適化してきました。 2013年以降、深層強化学習が注目を集め始めました。強化学習で深層ニューラルネットワークを使用してより強力な表現を学習することで、強化学習アルゴリズムは洗練性や実用性などの問題を解決できるようになりました。

分散強化学習は、ニューラルネットワークが強化学習をより適切に実行できるようにするアルゴリズムの 1 つです。多くの場合、特に現実の多くの状況では、将来の報酬の結果は、実際には完全に既知の量ではなく特定の行動に基づいた予測であり、ある程度のランダム性を持っています。

図 1 は、コンピュータ制御の図形が、落ちるか反対側にたどり着くかを知る方法がない状態で障害物を横断する例です。つまり、ここでは 2 種類の予測報酬があり、1 つは落下する可能性を表し、もう 1 つは反対側に正常に到達する可能性を表します。

図 1: 将来が不確実な場合、将来の報酬は確率分布を使用して記述できます。未来の一部は「良い（緑）」かもしれませんが、他の部分は「悪い（赤）」かもしれません。さまざまな TD アルゴリズムの助けを借りて、分布強化学習はこの報酬期待値の分布を学習できます。

この場合、標準の TD アルゴリズムは将来の平均報酬を予測することを学習し、潜在的な報酬の 2 つのピークの分布を捉えることができません。しかし、分散強化学習アルゴリズムは、将来のすべての報酬を予測することを学習できます。上の図 1 は、分散エージェントによって学習された報酬予測を示しています。

そのため、分散強化学習アルゴリズムをドーパミン研究に応用することが研究者の視野に入ってきました。

分散TD: より優れたパフォーマンスを備えた強化学習アルゴリズム

新しい研究では、標準 TD と非常によく似ており、分散 TD と呼ばれる分散強化学習アルゴリズムを使用します。標準 TD は単一の予測 (平均予想予測) を学習しますが、分散 TD は異なる予測のシーケンスを学習します。分散 TD は標準 TD と同じ方法で予測を学習し、連続する予測間の差を表す報酬予測誤差を計算しますが、各予測子は各報酬予測誤差に対して異なる変換を使用します。

たとえば、報酬予測誤差が正の場合 (下の図 2A を参照)、一部の予測子は報酬予測誤差を選択的に「増幅」または「保持」します。これにより、予測子は報酬分布のより高い部分に対応する、より楽観的な報酬予測を学習するようになります。しかし同時に、他の予測子は負の報酬予測誤差を増幅し (下の図 2A に示すように)、より悲観的な報酬予測を学習します。したがって、異なる悲観的重みと楽観的重みを持つ一連の予測子は、以下の図 2B と 2C の完全な報酬分配図を形成します。

図 2: 報酬分布のさまざまな部分の価値推定の分散 TD 学習。

分布強化学習はシンプルであるだけでなく、ディープニューラルネットワークと組み合わせると非常に強力になるという別の利点もあります。過去 5 年間で、オリジナルの深層強化学習 DQN エージェントに基づくアルゴリズムは大きく進歩し、これらのアルゴリズムは Atari 2600 ゲームの Atari-57 ベンチマークセットで評価されることが多く、分散強化学習アルゴリズムのパフォーマンス上の利点が実証されています。

ドーパミン研究における分散TD

分散 TD は人工ニューラルネットワークで優れたパフォーマンスを発揮するため、本研究では分散 TD を使用して脳の報酬と罰のメカニズムを研究することを検討します。

この研究では、研究者らはハーバード大学と協力し、マウスのドーパミン細胞の記録を分析した。タスク中、マウスは未知の量の報酬を受け取りました (下の図 4 を参照)。研究者らは、ドーパミンニューロンの活動が標準TDと分散TDのどちらとより一致しているかを評価することを目的とした。

これまでの研究では、ドーパミン細胞は発火率を変化させて予測誤差の存在、つまり動物が予想よりも多くの報酬を受け取ったか少ない報酬を受け取ったかを示すことが示されています。報酬が受け取られると、予測誤差はゼロになるはずであり、つまり報酬の大きさはドーパミン細胞が予測したものと同じになるはずであり、したがって対応する発火率は変化しないはずであることがわかっています。

研究者らが各ドーパミン細胞について、そのベースライン発火率が変化していないと判断した場合、その報酬の大きさも判断できる。この関係は細胞の「転換点」と呼ばれます。研究者たちは、細胞の種類によっても反転点が異なるかどうかを調べたかった。

下の図 4C に示すように、セル間には明らかな違いがあり、一部のセルは非常に大きな報酬を予測し、他のセルは非常に小さな報酬しか予測していません。細胞間の実際の差は、記録における固有のランダムな変化率から予想されるものよりもはるかに大きくなります。

図 4: このタスクでは、マウスが受け取る水報酬はランダムな方法で決定され、0.1〜20 UL の範囲で調整できます。

分散 TD では、報酬予測におけるこれらの違いは、正または負の報酬予測誤差の選択的増幅から生じます。肯定的な報酬予測を増幅すると、より楽観的な報酬予測につながり、否定的な報酬を増幅すると、より悲観的な予測につながります。そこで研究者らは次に、さまざまなドーパミン細胞が肯定的または否定的な期待に応じてどの程度拡張するかを測定し、ノイズでは説明できない細胞間の強力な多様性を発見した。そして重要なことに、彼らは、肯定的な報酬予測誤差を増幅した同じ細胞が、より高い反転ポイントも示したことを発見しました (図 4C、右下)。つまり、これらの細胞はより高い報酬を期待していたのです。

最後に、分散 TD 理論では、異なる反転ポイントを持つ細胞が学習した報酬分布を共同でエンコードする必要があることが予測されます。そのため、研究者たちは、さまざまな細胞に割り当てられた報酬の分布をドーパミン細胞の発火率から解読できるかどうかを調べたいと考えました。

図 5 に示すように、研究者らは、ドーパミン細胞の発火率のみを使用して、マウスがタスクを実行したときの実際の報酬分布 (灰色の領域) に非常に近い報酬分布 (青線) を再構築できることを発見しました。

図 5: ドーパミン細胞の集団は学習した報酬分布の形状をエンコードします。

要約する

研究者たちは、脳内のドーパミンニューロンが「悲観主義」と「楽観主義」の異なるレベルに調整されていることを発見した。合唱団であれば、すべてのニューロンが同じ音域で歌うのではなく、一斉に歌うことになります。各ニューロンは、テノールやアルトのように、独自の音域を持ちます。人工強化学習システムでは、この多様な調整により、より豊富なトレーニング信号が生成され、ニューラルネットワークの学習が大幅に高速化されます。研究者たちは、脳が同じ理由でこのメカニズムを使用しているのではないかと推測している。

脳における分散強化学習の存在は、AI と神経科学の発展に非常に興味深い洞察をもたらす可能性があります。まず、この発見は、脳内ですでに使用されているアルゴリズムである分布強化学習の可能性を検証するものです。

第二に、神経科学に新たな疑問を提起します。脳が楽観的/悲観的なドーパミンニューロンを選択的に「聞く」としたらどうなるでしょうか?それは衝動性や鬱につながりますか?脳には強力な表現能力があります。これらの表現は分散学習を通じてどのように訓練されるのでしょうか?たとえば、動物が報酬を割り当てるメカニズムを学習したら、その表現を下流のタスクでどのように使用するのでしょうか?ドーパミン細胞間の楽観主義の変動は、脳内の他の既知の変動とどのように関係しているのでしょうか?これらの問題は、その後の研究によるさらなる説明が必要です。

最終的に、DeepMind の研究者は、これらの疑問を提起し、それに答えることで神経科学の発展を促進し、それが人工知能の研究に利益をもたらし、好循環を形成することを望んでいます。

<<: 人工知能とIoTがガソリン小売業界を変革

>>: 将来の顔認識技術の最大の問題は、それがほぼ間違いのないものであることだ