大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。

しかし、今は、ある程度の進歩がみられるようです。

ChatGPT の最大のライバルである Claude を開発している Anthropic 社は、辞書学習を使用して約 500 個のニューロンを約 4,000 個の解釈可能な特徴に分解することに成功しました。

写真

具体的には、ニューロンは解釈不可能ですが、この分解の後、Anthropic は各特徴が異なる意味を表していることを発見しました。たとえば、ニューロンの一部は DNA 配列を担い、他のニューロンは HTTP リクエストや法律文書などを表しており、解釈可能であることを意味します。

写真

これらの機能のいずれかを人工的に刺激することで、モデルが期待どおりの出力を出すように誘導できます。

たとえば、DNA 機能をオンにするとモデルは DNA を出力し、アラビア語テキスト機能をオンにするとモデルはアラビア語テキストを出力します。

写真

アントロピックは興奮してこう述べた。

彼らのアプローチは、AI の説明不可能性という大きな障害を克服する可能性が高い。

言語モデルの仕組みを理解すれば、モデルが安全かどうか、社会や企業に採用されるべきかどうかを判断することが容易になります。

写真

詳しく見てみましょう。

辞書学習による言語モデルの分解

まず、言語モデルだけに関して言えば、その解釈不可能性は、ネットワーク内のほとんどのニューロンが「多意味的」であるという事実に主に反映されています。

つまり、無関係な複数の事柄に反応できるのです。

たとえば、小規模な言語モデル内のニューロンは、学術的な引用、英語の会話、HTTP リクエスト、韓国語のテキストなど、さまざまなコンテンツに対して同時に強く活性化する可能性があります。

写真

これにより、ニューラル ネットワークの各部分の特定の機能と相互作用を理解することができず、ネットワーク全体の動作を推測できなくなります。

では、多義性を引き起こす原因は何でしょうか?

昨年早くも、Anthropic は、潜在的な要因の 1 つは「重ね合わせ」であると推測していました。

これは、モデルが多数の無関係な概念を少数のニューロンに圧縮する操作を指します。

写真

同時に、Anthropic は、辞書学習、つまり物事の最も重要な特徴を抽出し、最終的には辞書を引くように新しい知識を獲得できるようにすることが、この問題の解決策であるとも指摘しました。

以前、彼らは重ね合わせのおもちゃのモデルを提案し、次のことを証明しました。

モデルに役立つ特徴のセットがトレーニング データ内にまばらに存在する場合、ニューラル ネットワークはトレーニング プロセス中に自然にスタッキングを生成できます。
このおもちゃのモデルに基づいて、彼らはスパースかつ解釈可能な特徴のセットを見つけるための 3 つの戦略を提案しました。まず、重ね合わせのないモデルを作成し、次に活性化のスパース性を促進します。

2 つ目は、辞書学習を使用して、重ね合わせを示すモデルで超完全な特徴基底を見つけることです。

3 番目は、最初の 2 つの方法を組み合わせることです。

実験により、方法 1 では多義性を排除するのに十分ではなく、方法 2 では深刻な過剰適合の問題があることが示されました。

そこで、チームはスパースオートエンコーダと呼ばれる弱い辞書学習アルゴリズムを採用しました。

トレーニングされたモデルから学習した特徴を生成することができ、モデルニューロン自体よりも意味的にスケーラブルな分析単位を提供します。

全体として、このアルゴリズムは、ニューラル ネットワークのアクティベーションでの辞書学習を使用する方法や分離など、多くの過去の研究に基づいて構築されています。

結果として得られたエンコーダーは、重ね合わせから解釈可能な特徴を抽出することに「説得力のある成功」を達成しました。

具体的には、Anthropic は 512 個のニューロンを持つ単層 MLP トランスフォーマーを使用し、最終的に 80 億のデータ ポイントを持つ MLP アクティベーションでスパース オートエンコーダーをトレーニングして、MLP アクティベーションを比較的解釈しやすい特徴に分解します。拡張係数は 1 倍 (512 個の特徴) から 256 倍 (131072 個の特徴) の範囲になります。

Anthropic チームは、すべての解釈可能性分析を A/1 と呼ばれる単一の実行にまとめました。これには、それぞれ意味が注釈付けされた 4,096 個の機能が含まれており、必要に応じて手動でアクティブ化できます。

以下にそれらを視覚化したものを示します。

写真

7つの主要な結論を含む統合された長いレポートが発表されました。

現在、Anthropic は上記の結果をすべてレポートの形で公開しています。

レポートのタイトルは「単一意味性に向けて: 辞書学習による言語モデルの分解」です。

この記事は非常に長く、4つの部分に分かれています。

  • 問題設定、研究動機の説明、そして彼らが訓練したトランスフォーマーとスパースオートエンコーダー。
  • 特徴の詳細な調査、つまり「存在の証明」は、彼らが発見した特徴が実際に機能的に特定の因果単位であることを示しています。
  • 全体的な分析により、得られた特徴は解釈可能であり、MLP レイヤーの重要な部分を説明できることが示されました。
  • 現象分析では、特徴の分離可能性、普遍性など、特徴のいくつかの特性と、それらがどのように「有限状態オートマトン」に似た興味深いシステムを形成するかを説明します。

一般的に、重要な結論は 7 つあります。

1. スパースオートエンコーダーを使用すると、意味的に比較的単純な特徴を抽出できますが、学習した特徴のほとんどは比較的解釈可能です。

2. スパースオートエンコーダは、ニューラル基盤ではほとんど目に見えない解釈可能な特徴を生成します。

3. スパースオートエンコーダの特徴は、トランスフォーマーの生成に介入してガイドするために使用できます。

たとえば、Base64 機能を有効にすると、モデルは Base64 テキストを生成し、Arabic 機能を有効にすると、アラビア語テキストが生成されます。

4. スパースオートエンコーダは比較的一般的な特徴を生成します。特徴は、自身のモデルニューロンよりも、互いに類似しています (「普遍性」セクションに対応)。

5. オートエンコーダのサイズを大きくすると、特徴が「分割」されるように見えます。たとえば、小さな辞書内の Base64 機能は、大きな辞書では 3 つに分割され、それぞれの意味はより微妙ですが、解釈可能です (「機能の分割可能性」セクションに対応)。

6. わずか 512 個のニューロンで数万の特徴を表現できます。

7. 機能を「有限状態オートマトン」に似たシステムに接続して、複雑な動作 (HTML 関数の生成など) を実現できます。

写真

もう一つ

コメント欄では、一部のネットユーザーが次のようにコメントした。

ニューロンは神秘的な箱のようなもので、Anthropic の研究は箱の中を覗く方法を研究することに相当する。

写真

明らかに、この作業はまだ始まりに過ぎません。

Anthropic 社は解釈可能性に関わる研究者やエンジニアの採用も強化している。

写真

クリックすると、給与は25万ドル(約180万人民元)から52万ドルの間であり、研究内容は上記のレポートと密接に関連していることがわかります。

レポートリンク: https://transformer-circuits.pub/2023/monosemantic-features/index.html

参考リンク: https://twitter.com/anthropicai/status/1709986949711200722

<<:  76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。

>>:  GPT-4 が Nature の査読者になる?スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50%以上が人間の査読者と一致した。

ブログ    
ブログ    

推薦する

AIとIoTが持続可能で人間中心の建物をどのようにサポートするか

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

インターフェース開発にアルゴリズムは必要ないなんて誰が言ったのでしょうか?

[[146153]]アルゴリズムとは何ですか?簡単に言えば、問題を解決するための手順がアルゴリズム...

中飛愛威CEO曹飛氏:自動化からインテリジェンスへ、ドローン検査をよりスマートに

[51CTO.comよりオリジナル記事] 農業、電力、航空写真撮影など、多くの分野でドローンが活躍す...

中国の人工知能コンピューティングパワーレポート:インターネット産業への投資が最も多く、都市ランキングでは杭州が1位

「中国の人工知能の応用と商業化の探究は世界と同レベルだが、コンピューティングパワー、アルゴリズム技術...

MIT、筋肉信号を使ってドローンを制御するシステムを開発

MITの研究者たちは、人間とロボットのシームレスなコラボレーションに近づく可能性のある新しいシステム...

...

...

人工知能は再び「冬」を迎えている

暑い夏がやって来ます。暑さをしのぐには、エアコンをつけてアイスを食べる以外に方法はないでしょうか?も...

ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデル...

...

機械学習が金融サイバー犯罪と戦う方法: 人工知能はセキュリティの洞察にとって不可欠

過去数か月間、コロナウイルス関連の請求による多大なストレスの期間中、失業保険制度から数百万ドルが盗ま...

もう一つの「無人工場」が誕生。残された労働者たちは何をするのでしょうか?

最近、ZTEの南京浜江インテリジェント製造基地が設立されたのを見たとき、私はまったく喜びを感じません...

...