大規模モデルのニューロンを分解します！クロードチームの最新の研究が人気を集め、ネットユーザー：ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。

しかし、今は、ある程度の進歩がみられるようです。

ChatGPT の最大のライバルである Claude を開発している Anthropic 社は、辞書学習を使用して約 500 個のニューロンを約 4,000 個の解釈可能な特徴に分解することに成功しました。

写真

具体的には、ニューロンは解釈不可能ですが、この分解の後、Anthropic は各特徴が異なる意味を表していることを発見しました。たとえば、ニューロンの一部は DNA 配列を担い、他のニューロンは HTTP リクエストや法律文書などを表しており、解釈可能であることを意味します。

写真

これらの機能のいずれかを人工的に刺激することで、モデルが期待どおりの出力を出すように誘導できます。

たとえば、DNA 機能をオンにするとモデルは DNA を出力し、アラビア語テキスト機能をオンにするとモデルはアラビア語テキストを出力します。

写真

アントロピックは興奮してこう述べた。

彼らのアプローチは、AI の説明不可能性という大きな障害を克服する可能性が高い。

言語モデルの仕組みを理解すれば、モデルが安全かどうか、社会や企業に採用されるべきかどうかを判断することが容易になります。

写真

詳しく見てみましょう。

辞書学習による言語モデルの分解

まず、言語モデルだけに関して言えば、その解釈不可能性は、ネットワーク内のほとんどのニューロンが「多意味的」であるという事実に主に反映されています。

つまり、無関係な複数の事柄に反応できるのです。

たとえば、小規模な言語モデル内のニューロンは、学術的な引用、英語の会話、HTTP リクエスト、韓国語のテキストなど、さまざまなコンテンツに対して同時に強く活性化する可能性があります。

写真

これにより、ニューラルネットワークの各部分の特定の機能と相互作用を理解することができず、ネットワーク全体の動作を推測できなくなります。

では、多義性を引き起こす原因は何でしょうか?

昨年早くも、Anthropic は、潜在的な要因の 1 つは「重ね合わせ」であると推測していました。

これは、モデルが多数の無関係な概念を少数のニューロンに圧縮する操作を指します。

写真

同時に、Anthropic は、辞書学習、つまり物事の最も重要な特徴を抽出し、最終的には辞書を引くように新しい知識を獲得できるようにすることが、この問題の解決策であるとも指摘しました。

以前、彼らは重ね合わせのおもちゃのモデルを提案し、次のことを証明しました。

モデルに役立つ特徴のセットがトレーニングデータ内にまばらに存在する場合、ニューラルネットワークはトレーニングプロセス中に自然にスタッキングを生成できます。
このおもちゃのモデルに基づいて、彼らはスパースかつ解釈可能な特徴のセットを見つけるための 3 つの戦略を提案しました。まず、重ね合わせのないモデルを作成し、次に活性化のスパース性を促進します。

2 つ目は、辞書学習を使用して、重ね合わせを示すモデルで超完全な特徴基底を見つけることです。

3 番目は、最初の 2 つの方法を組み合わせることです。

実験により、方法 1 では多義性を排除するのに十分ではなく、方法 2 では深刻な過剰適合の問題があることが示されました。

そこで、チームはスパースオートエンコーダと呼ばれる弱い辞書学習アルゴリズムを採用しました。

トレーニングされたモデルから学習した特徴を生成することができ、モデルニューロン自体よりも意味的にスケーラブルな分析単位を提供します。

全体として、このアルゴリズムは、ニューラルネットワークのアクティベーションでの辞書学習を使用する方法や分離など、多くの過去の研究に基づいて構築されています。

結果として得られたエンコーダーは、重ね合わせから解釈可能な特徴を抽出することに「説得力のある成功」を達成しました。

具体的には、Anthropic は 512 個のニューロンを持つ単層 MLP トランスフォーマーを使用し、最終的に 80 億のデータポイントを持つ MLP アクティベーションでスパースオートエンコーダーをトレーニングして、MLP アクティベーションを比較的解釈しやすい特徴に分解します。拡張係数は 1 倍 (512 個の特徴) から 256 倍 (131072 個の特徴) の範囲になります。

Anthropic チームは、すべての解釈可能性分析を A/1 と呼ばれる単一の実行にまとめました。これには、それぞれ意味が注釈付けされた 4,096 個の機能が含まれており、必要に応じて手動でアクティブ化できます。

以下にそれらを視覚化したものを示します。

写真