DeepMind のブラックボックス解読の第一歩: ニューラルネットワークの認知原理は人間のものと同じであることが判明しました。

人間は、画像内の物体を認識して推論することから、超人的なレベルで Atari ゲームや囲碁をプレイすることまで、多くの驚くべきことをディープニューラルネットワークに教えてきました。ニューラルネットワークの構造とそれが実行するタスクがますます複雑になるにつれて、ニューラルネットワークが学習する問題解決方法は、人間にとって理解することがますます困難になってきています。

人々はこの問題を「ブラックボックス」と呼んでいます。ニューラルネットワークが現実世界の問題を解決するためにますます使用されるようになるにつれて、このブラックボックス問題を解決することがますます重要になります。

これらのニューラルネットワークシステムを理解し説明するために、DeepMind の研究者は新しいツールと方法を模索してきました。最近、ICML には DeepMind の論文が掲載され、深層ニューラルネットワークを理解するための認知心理学の新しい手法が提案されました。認知心理学は、行動を測定することで認知プロセスのメカニズムを推測します。これらのメカニズムを詳細に説明し、メカニズムを検証するための多くの実験方法を紹介する認知心理学の論文は数多くあります。高度なニューラルネットワークが特定のタスクにおいて人間のレベルに達すると、認知心理学の手法がブラックボックス問題の解決に大きく役立つ可能性があります。

[[195594]]

ブラックボックス

DeepMind は論文の論点を説明するために特定の事例を研究しました。彼らは人間の認知プロセスを説明する実験を設計し、それを使用してディープニューラルネットワークが画像分類タスクをどのように解決するかを比較し、理解を深めました。

その結果、認知科学者が人間に観察する行動は、これらのディープニューラルネットワークでも観察できるようになります。さらに、これらの結果は、ニューラルネットワークが画像分類タスクを解決する方法について、有用であるだけでなく驚くべき豊富な洞察を提供します。全体として、このケーススタディの成功は、認知心理学的手法を使用して深層学習システムを理解する可能性を示しています。

ワンショット語彙学習モデルにおける形状嗜好の測定

DeepMind のケーススタディでは、人間の子供がどのように物体を認識し、分類するかという問題が検討されました。この問題は、発達認知心理学でも盛んに研究されてきました。子どもは、一つの例から単語の意味を推測する能力を持っています。これは「一発語彙学習」と呼ばれます。この能力は非常に簡単に習得でき、そのプロセスは非常に簡単だとよく思われます。しかし、哲学者ウィラード・ヴァン・オーマン・クワインは、このプロセスがいかに複雑であるかを示す古典的な思考実験を提唱しました。

フィールド言語学者は、自分が慣れ親しんでいる言語とはまったく異なる言語を使用する別の文化を体験しに行きます。言語学者は、いくつかの単語を教えてくれる地元の人々を見つける必要があります。ウサギが走り去ると、地元の人々は「ガバガイ」と言うが、言語学者はその言葉の意味を推測しなければならない。言語学者にとって、この単語はウサギ、動物、白いもの、特定のウサギ、さらにはウサギの一部など、さまざまなものを指すことができます。実際、この言葉は無限の数のイメージを指すことができます。人間はどのようにしてその中から正しいものを選ぶのでしょうか?

[[195595]]

「ガバガイ」

50年後、ワンショット語彙学習が可能なディープニューラルネットワークに直面して、私たちは再び同じ問題に直面しています。 DeepMind が開発した「マッチングネットワーク」を例に挙げてみましょう。これは、注意と記憶のモデルにおける最近の進歩を利用して、たった 1 つの分類例から ImageNet 画像を分類する最先端の機能を実現します。しかし、ネットワークが画像を分類する際にどのような仮定を行うかはわかりません。

この疑問をさらに深く掘り下げるために、DeepMind の研究者たちは発達心理学の研究を参照しました。これらの心理学者は、子供たちが帰納的偏見を持っているという証拠を発見しました。この設定により、多くの誤った参照が排除され、正しい参照を見つけることができるようになります。このような好みには以下が含まれます。

全体的対象への好み。子どもは単語が対象の一部ではなく全体を指していると想定する（ウサギの特定の部分を指すというクワインの懸念を排除する）
カテゴリーバイアス。子どもは、単語が物体が属する基本的なカテゴリーを指していると想定する（「ウサギ」ではなく「すべての動物」を指す基本的な意味についてのクワインの懸念を排除する）
形状の好み。子供は名詞の意味は色や質感ではなく物体の形状によって決まると想定します（特定の物体「ウサギ」ではなく、すべての白いものを指すというクワインの懸念を排除します）。

人間の形状の好みは特によく研究されているため、DeepMind の研究者はニューラルネットワークの形状の好みを測定しました。

DeepMind が深層ニューラルネットワークの形状の好みを測定するために使用した認知心理学からの刺激の例。これらの画像はインディアナ大学認知発達研究所のリンダ・スミス氏から提供されたものです。

DeepMind の研究者が使用した典型的な形状嗜好実験は、次のように実施されました。ディープニューラルネットワークに、テストオブジェクト、形状が一致するオブジェクト (テストオブジェクトと同じ形状)、色が一致するオブジェクト (テストオブジェクトと同じ色だが形状が異なる) の 3 つのオブジェクトの写真が表示されました。次に、形状の好みは、試行オブジェクトと形状が一致するオブジェクトがネットワークによって同じクラスに分類された回数の割合として定義して測定されました。

実験で使用された画像は、インディアナ大学認知発達研究所での人間実験で使用されたものと同じ画像です。

これはマッチングネットワークを使用した認知心理学実験の概要です。マッチングネットワークは、テスト画像 (左) を画像 A または B (上部中央または上部右上) とマッチングします。出力 (右下) は、このマッチングネットワークの形状の優先順位によって異なります。

DeepMind チームは、ディープニューラルネットワーク (Matching Networks とベースラインの Inception モデル) を実験し、ネットワークが人間と同じように、色や素材よりも物体の形状をはるかに強く好むことを発見しました。言い換えれば、彼らには「形状の好み」があるのです。

この結果は、マッチングネットワークとインセプション分類器の両方が誤った仮定を排除するために形状に対する帰納的選好を使用していることを示唆しており、研究者はこれらのネットワークがワンショット語彙学習をどのように解決するかを明確に理解できます。

形状バイアスに加えて、DeepMind チームはいくつかの興味深い事実も発見しました。

彼らは、形状の好みはネットワークの初期トレーニング中に徐々に現れることを発見しました。これは、人間における形状の好みの出現を彷彿とさせます。心理学者は、年少の子供は年長の子供よりも形状の好みが弱く、大人は形状の好みが強いことを発見しました。
彼らは、初期化とトレーニングに異なるランダムシードを使用すると、ネットワークの優先順位が異なる結果になることを発見しました。これは、心理学者が単一の対象だけを研究しても結論を導き出せないことを学んだのと同じように、ディープラーニングシステムを研究して結論を導き出すときには、研究するサンプルの数を多くする必要があることを示唆しています。
研究者たちは、ネットワークの形状の好みは大きく異なっていたにもかかわらず、ワンショットの語彙学習のパフォーマンスは類似していることを発見しました。これは、異なるネットワークが複雑な問題を解決するために多くの同様に効果的な方法を見つけることができることを示唆しています。

このバイアスは標準的なニューラルネットワークアーキテクチャに存在しますが、これまで誰も認識していませんでした。この好みの発見は、人間が作り出した認知心理学を使ってニューラルネットワークが問題を解決する仕組みを説明できる可能性を示しています。心理学の他の分野の研究も役立つかもしれません。エピソード記憶に関する文献のアイデアはエピソード記憶の構造を理解するのに役立つかもしれませんし、意味認知に関する文献の方法は最近の概念形成モデルを理解するのに役立つかもしれません。上記の心理学の分野の多くには豊富な文献があり、それらは「ブラックボックス」問題を解決し、ニューラルネットワークのさまざまな動作をよりよく理解するのに役立つ強力な新しいツールを人間に提供してくれる可能性があります。

論文アドレス: https://arxiv.org/abs/1706.08606

DeepMind Blogより、Leifeng.com AI Technology Reviewが編集

<<: ディープラーニングがインターネットにパーソナライゼーションをもたらす仕組み

>>: MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案