DeepMindの長い記事によると、AlphaZeroのブラックボックスニューラルネットワークが学習した知識は基本的に人間の知識と似ているという。

DeepMindの長い記事によると、AlphaZeroのブラックボックスニューラルネットワークが学習した知識は基本的に人間の知識と似ているという。

AlphaZero がチェスをプレイすることと人間がチェスをプレイすることの違いは何ですか?あなたは人類がこれまで知らなかった知識を習得しましたか? DeepMind は最近、世界チェスチャンピオンと提携して 69 ページの論文を発表しました。AlphaZero を徹底的に分析した結果、ニューラル ネットワークが学習した知識は基本的に人間の知識と似ていることがわかりました。

機械学習システムは、不透明で予測不可能であり、トレーニングの対象となる人間との共通点がほとんどないと見なされることが多いです。

ブラック ボックス モデルと解釈可能な学習は、2 つの異なる道を進む運命にあるのでしょうか?

しかし、最近の研究では、少なくともいくつかのケースでは、ニューラル ネットワークが人間が理解できる表現を学習できることが示唆されています。

たとえば、分類器内の単一のニューロンは意味情報を表すことができ、言語モデルには文法情報も含まれており、視覚データとテキストデータの整列データには複雑な概念表現も含まれています。これらのニューラル ネットワークによって学習された概念は、人間が受けた概念トレーニングに関連しています。

しかし、1 つの疑問が残ります。学習した概念は普遍的なものなのでしょうか?他のディープラーニングシステムも同様の意味のある表現を持つことが期待できるでしょうか?

[[439006]]

これらの質問に対する答えが「いいえ」の場合、モデル計算プロセスの解釈可能性に関する研究は制限され、それを説明する他の合理的な方法を見つけることは困難になります。

上記の例では、機械学習モデルが人間の意味を理解できることをある程度示していますが、これは基本的に、機械学習モデルが人間によって生成されたデータにしかアクセスできないためであり、分類タスクでは、人間のカテゴリ概念がモデルに課され、カテゴリの意味を捉えることができるためです。

言い換えれば、これらのタスクは比較的単純で、説明も簡単です。

機械学習モデルが人間が理解できる概念を本当に捉えているかどうかをさらにテストするには、人間がラベル付けしたデータを使用せずに人間を上回るモデルを見つける必要があります。

これは偶然ではないでしょうか? AlphaZero はこれら両方の要件を満たしています。

[[439007]]

まず、AlphaZero は自己対戦でトレーニングされたため、人間のデータにさらされたことがなく、モンテカルロ木探索の助けを借りて、チェス、囲碁、将棋の 3 つの競争ゲームで人間に勝利しました。

そのため、AlphaZero は機械学習モデルと人間の理解との関係を研究するための重要な架け橋となっています。人間が理解できる概念が AlphaZero で見つかるのであれば、他のモデルでもそれができるはずです。

やるだけ!

DeepMindとGoogle Brainの研究者らは世界チェスチャンピオンと協力し、AlphaZeroのような超人的なニューラルネットワークモデルが何を学習しているのかという科学的かつ実用的な問題に焦点を当てた69ページの論文を作成した。

論文の中で研究者らは、チェスにおいて人間が獲得した知識とAlphaZeroが獲得した知識は類似していることを実証した。また、チェスに関する人間のさまざまな概念を調査することで、これらの概念の一部が AlphaZero ネットワークでどのように表現されるかを観察することもできます。

https://arxiv.org/abs/2111.09259

同紙に招かれたチェス名人は、1992年にグランドマスターの称号を獲得した有名なロシアのチェス選手、ウラジミール・クラムニク氏だ。 2000年から2007年まで、彼は世界チェスチャンピオンでした。彼のレーティングは2801ポイントで、世界ランキング4位(現役選手の中では3位)です。

[[439008]]

研究方法は主に3つの側面に分けられます。

1. 概念の探究

研究者の最初の仕事は、AlphaZeroの内部表現、つまりニューラルネットワーク内のニューロンの活性化がチェスに関する人間の概念と関連しているかどうかを研究することだった。

ネットワークの内部表現から人間の概念を簡単に予測できる場合、詳細な研究を通じてより多くの情報を明らかにできるはずです。学習した表現が人間の概念と何の関係もない場合、AlphaZero の内部計算は、さらに研究しても不明瞭なままになる可能性があります。

[[439009]]

概念ベースの方法は、大規模な入力データセットのネットワーク活性化から人間の概念を検出します。チェスは長年の発展を経て高度に理論化されたため、使用できる人間が定義した既成の概念がすでに多数存在し、これらの概念も十分に複雑です。これらすべての概念を組み合わせることで、完全な位置評価が可能になります。

さらに、探索プロセス全体が自動化されているため、研究者はセルフプレイトレーニングであらゆる概念、あらゆるブロック、複数のチェックポイントを探索し、学習内容の青写真を構築することができます。

もちろん、概念ベースのアプローチは、ニューラル ネットワークの計算を理解する唯一の方法からは程遠いものです。

2. 行動の変化を研究する

内部表現が時間の経過とともにどのように変化するかを調べた後、これらの変化する表現がどのように行動の変化につながるかを調べるのは自然なことです。

トレーニング中、同じポジションでもいくつかの動きが他の動きよりも好まれ、この好みはトレーニングが進むにつれて発達します。

[[439010]]

AlphaZero がモンテカルロ木探索 (MCTS) なしで実行される場合、動作の変化は以前のアクション選択の確率の変化に限定されます。一連のチェスゲームにおける特定の動きに対するアクションの確率の変化を測定することで、モデルの動作の変化を発見し、自己プレイトレーニングにおけるゲームの進化と高レベルの人間のゲームにおける動きの選択の進化を比較することができます。

3. アクティベーションを直接調査する

AlphaZero のトレーニング後の活性化から多くの人間の概念を予測できることがわかったので、これらのネットワーク ニューロンの活性化で実際に何が起こっているのかを調査し始めることができます。

研究者らは、非負値行列因子分解(NMF)技術を使用して、AlphZero の表現を複数の因子に分解しました。このアプローチは、既存の人間の概念に依存しない情報を提供するとともに、AlphaZero ネットワークが計算している内容の補完的なビューも提供します。

単一のニューロンの活性化と入力間の共分散を直接測定することもオプションであり、これにより、入力機能の組み合わせが提供され、どの機能の存在が特定のニューロンの活性化と最も相関しているかがわかります。

[[439011]]

最終的な調査結果は以下のとおりです。

AlphaZero ネットワークには、多くの人間の概念が見つかります。

研究者らは、AlphaZero ネットワークの内部学習されたチェスの表現を使用して、多くの人々のチェスの概念を確実に再構築できることを実証しました。我々は、スパース線形プローブをトレーニングすることで、より広範囲の概念を扱うために、概念活性化ベクトル (CAV) アプローチを採用しています。これは、関連情報が AlphaZero ネットワークによって計算されていることも示しています。

結果はまた、AlphaZero のチェスの知識は人間の概念探索と密接に関連しているように見えるものの、再構築が不完全なことが多いため、両者の間には確かに違いがあることも示しています。

[[439012]]

コンセプト プローブ手法を使用すると、トレーニング中およびネットワークの各レイヤーでの関連情報の発生を測定でき、モデルがいつどのようなコンセプトを発見したかを把握することもできます。

研究者らはまた、多くの概念がトレーニングの初期段階では驚くほど一貫していること、そしてAlphaZeroの行動選択が急速に変化していることも発見した。

概念と相対概念値の使用は、時間の経過に伴う AlphaZero 値関数の進化を説明することに重点を置いています。

研究者らは再び概念ベースのアプローチを使用して、一連の人間の概念に対する価値関数の出力を予測しようとしました。トレーニング中の概念の重みの変化を研究することで、AlphaZero の動作が人間の高度なチェス概念とどのように関連しているかがわかります。これは、AlphaZero のチェスのプレイスタイルの現れでもあります。

[[439013]]

初期の AlphaZero トレーニングでは、主に教材のより複雑で微妙な概念に重点が置かれていたことがわかります。たとえば、キングの安全性とモビリティは、価値関数の重要な予測子として、トレーニング プロセスの後半でのみ表示されます。

分析により、人間のチェスとAlphaZeroの開発プロセスには類似点と相違点の両方があることがわかりました。 AlphaZeroは人間のチェスの発展の歴史を振り返ることはせず、いくつかの動きから直接トレーニングを始めました。しかし、自己プレイ戦略に関しては、人間と AlphaZero は基本的に似ています。

おそらく、ニューラル ネットワークの開発は、ついにブラック ボックスを開いて、それが生物学的ニューロンと同じかどうかを確認する段階に到達したのです。

<<:  世界初の「自己複製」する生体ロボットが誕生。科学者たちの次なる目標とは?

>>:  北京大学の新しい研究では、数学モデルを使用して、インターネット有名人の台頭の秘密を明らかにしています。ネイチャー誌に掲載

ブログ    
ブログ    

推薦する

デジタル変革とAIイノベーションが銀行業界を新たな時代へ導く

急速な技術進歩と規制環境の変化が進む時代において、銀行が競争力を維持し、規制に準拠する必要性がかつて...

12年後の人工知能と人間はどうなっているでしょうか? 900人の専門家の意見はこちら

[[253534]]編集:Tailang一部のアナリストは、2030年までに人々は複雑なデジタルシス...

世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

昨年、国連は2019年を「国際先住民族言語年」と宣言し、今、このお祭りがますます近づいてきています。...

これはGPT-4が愚かである理由についての新たな説明である

かつては世界で最も強力だと考えられていたGPT-4も、リリース以来、いくつかの「信頼の危機」を経験し...

人工知能の登場により、一人暮らしの高齢者の介護は難しくなくなり、高齢者介護はテクノロジーの時代に入った

[[389635]]私の国では高齢化が進み、高齢者介護は長い間、社会全体で広く関心を集めるテーマとな...

...

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

米国を例にとると、10年後には、成人一人当たり人工知能ビジネスから年間13,500ドルの利益を得るこ...

オープンソースの人工知能アルゴリズム 新しいスーパーピクセルサンプリング、ネットワーク深層特徴推定スーパーピクセル

オープンソース AI アルゴリズム 新しいスーパーピクセル サンプリング、ネットワーク ディープ フ...

...

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が...

...

今年のノーベル賞はアルトゥール・エケルト氏が受賞すると見られている。百度研究所の科学者の力を過小評価すべきではない。

2019年のノーベル賞受賞者のリストは、今年10月7日から発表されます。発表日が近づくにつれ、学界...

新しい機械学習システムがロボットに社会的なスキルを与える

ロボットは大学のキャンパスに食べ物を配達したり、ゴルフコースでホールインワンを達成したりすることがで...

PyTorch でリカレントニューラルネットワークを実装するにはどうすればいいですか?

[[189593]] Siri から Google 翻訳まで、ディープ ニューラル ネットワークは...