大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。

しかし、今は、ある程度の進歩がみられるようです。

ChatGPT の最大のライバルである Claude を開発している Anthropic 社は、辞書学習を使用して約 500 個のニューロンを約 4,000 個の解釈可能な特徴に分解することに成功しました。

写真

具体的には、ニューロンは解釈不可能ですが、この分解の後、Anthropic は各特徴が異なる意味を表していることを発見しました。たとえば、ニューロンの一部は DNA 配列を担い、他のニューロンは HTTP リクエストや法律文書などを表しており、解釈可能であることを意味します。

写真

これらの機能のいずれかを人工的に刺激することで、モデルが期待どおりの出力を出すように誘導できます。

たとえば、DNA 機能をオンにするとモデルは DNA を出力し、アラビア語テキスト機能をオンにするとモデルはアラビア語テキストを出力します。

写真

アントロピックは興奮してこう述べた。

彼らのアプローチは、AI の説明不可能性という大きな障害を克服する可能性が高い。

言語モデルの仕組みを理解すれば、モデルが安全かどうか、社会や企業に採用されるべきかどうかを判断することが容易になります。

写真

詳しく見てみましょう。

辞書学習による言語モデルの分解

まず、言語モデルだけに関して言えば、その解釈不可能性は、ネットワーク内のほとんどのニューロンが「多意味的」であるという事実に主に反映されています。

つまり、無関係な複数の事柄に反応できるのです。

たとえば、小規模な言語モデル内のニューロンは、学術的な引用、英語の会話、HTTP リクエスト、韓国語のテキストなど、さまざまなコンテンツに対して同時に強く活性化する可能性があります。

写真

これにより、ニューラル ネットワークの各部分の特定の機能と相互作用を理解することができず、ネットワーク全体の動作を推測できなくなります。

では、多義性を引き起こす原因は何でしょうか?

昨年早くも、Anthropic は、潜在的な要因の 1 つは「重ね合わせ」であると推測していました。

これは、モデルが多数の無関係な概念を少数のニューロンに圧縮する操作を指します。

写真

同時に、Anthropic は、辞書学習、つまり物事の最も重要な特徴を抽出し、最終的には辞書を引くように新しい知識を獲得できるようにすることが、この問題の解決策であるとも指摘しました。

以前、彼らは重ね合わせのおもちゃのモデルを提案し、次のことを証明しました。

モデルに役立つ特徴のセットがトレーニング データ内にまばらに存在する場合、ニューラル ネットワークはトレーニング プロセス中に自然にスタッキングを生成できます。
このおもちゃのモデルに基づいて、彼らはスパースかつ解釈可能な特徴のセットを見つけるための 3 つの戦略を提案しました。まず、重ね合わせのないモデルを作成し、次に活性化のスパース性を促進します。

2 つ目は、辞書学習を使用して、重ね合わせを示すモデルで超完全な特徴基底を見つけることです。

3 番目は、最初の 2 つの方法を組み合わせることです。

実験により、方法 1 では多義性を排除するのに十分ではなく、方法 2 では深刻な過剰適合の問題があることが示されました。

そこで、チームはスパースオートエンコーダと呼ばれる弱い辞書学習アルゴリズムを採用しました。

トレーニングされたモデルから学習した特徴を生成することができ、モデルニューロン自体よりも意味的にスケーラブルな分析単位を提供します。

全体として、このアルゴリズムは、ニューラル ネットワークのアクティベーションでの辞書学習を使用する方法や分離など、多くの過去の研究に基づいて構築されています。

結果として得られたエンコーダーは、重ね合わせから解釈可能な特徴を抽出することに「説得力のある成功」を達成しました。

具体的には、Anthropic は 512 個のニューロンを持つ単層 MLP トランスフォーマーを使用し、最終的に 80 億のデータ ポイントを持つ MLP アクティベーションでスパース オートエンコーダーをトレーニングして、MLP アクティベーションを比較的解釈しやすい特徴に分解します。拡張係数は 1 倍 (512 個の特徴) から 256 倍 (131072 個の特徴) の範囲になります。

Anthropic チームは、すべての解釈可能性分析を A/1 と呼ばれる単一の実行にまとめました。これには、それぞれ意味が注釈付けされた 4,096 個の機能が含まれており、必要に応じて手動でアクティブ化できます。

以下にそれらを視覚化したものを示します。

写真

7つの主要な結論を含む統合された長いレポートが発表されました。

現在、Anthropic は上記の結果をすべてレポートの形で公開しています。

レポートのタイトルは「単一意味性に向けて: 辞書学習による言語モデルの分解」です。

この記事は非常に長く、4つの部分に分かれています。

  • 問題設定、研究動機の説明、そして彼らが訓練したトランスフォーマーとスパースオートエンコーダー。
  • 特徴の詳細な調査、つまり「存在の証明」は、彼らが発見した特徴が実際に機能的に特定の因果単位であることを示しています。
  • 全体的な分析により、得られた特徴は解釈可能であり、MLP レイヤーの重要な部分を説明できることが示されました。
  • 現象分析では、特徴の分離可能性、普遍性など、特徴のいくつかの特性と、それらがどのように「有限状態オートマトン」に似た興味深いシステムを形成するかを説明します。

一般的に、重要な結論は 7 つあります。

1. スパースオートエンコーダーを使用すると、意味的に比較的単純な特徴を抽出できますが、学習した特徴のほとんどは比較的解釈可能です。

2. スパースオートエンコーダは、ニューラル基盤ではほとんど目に見えない解釈可能な特徴を生成します。

3. スパースオートエンコーダの特徴は、トランスフォーマーの生成に介入してガイドするために使用できます。

たとえば、Base64 機能を有効にすると、モデルは Base64 テキストを生成し、Arabic 機能を有効にすると、アラビア語テキストが生成されます。

4. スパースオートエンコーダは比較的一般的な特徴を生成します。特徴は、自身のモデルニューロンよりも、互いに類似しています (「普遍性」セクションに対応)。

5. オートエンコーダのサイズを大きくすると、特徴が「分割」されるように見えます。たとえば、小さな辞書内の Base64 機能は、大きな辞書では 3 つに分割され、それぞれの意味はより微妙ですが、解釈可能です (「機能の分割可能性」セクションに対応)。

6. わずか 512 個のニューロンで数万の特徴を表現できます。

7. 機能を「有限状態オートマトン」に似たシステムに接続して、複雑な動作 (HTML 関数の生成など) を実現できます。

写真

もう一つ

コメント欄では、一部のネットユーザーが次のようにコメントした。

ニューロンは神秘的な箱のようなもので、Anthropic の研究は箱の中を覗く方法を研究することに相当する。

写真

明らかに、この作業はまだ始まりに過ぎません。

Anthropic 社は解釈可能性に関わる研究者やエンジニアの採用も強化している。

写真

クリックすると、給与は25万ドル(約180万人民元)から52万ドルの間であり、研究内容は上記のレポートと密接に関連していることがわかります。

レポートリンク: https://transformer-circuits.pub/2023/monosemantic-features/index.html

参考リンク: https://twitter.com/anthropicai/status/1709986949711200722

<<:  76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。

>>:  GPT-4 が Nature の査読者になる?スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50%以上が人間の査読者と一致した。

ブログ    
ブログ    
ブログ    

推薦する

AIの限界を理解することがその可能性を実現する鍵となる

人工知能は多くの業界のワークフローを変革しました。デジタル顧客サービスアシスタント、自動運転車、無人...

科学者は人工知能を使って新素材を発見する

米国の科学者チームは、人工知能を利用して非常に短期間で新たな鉄鋼の代替品を発見したいと考えている。そ...

巨大企業間の今後の AI 戦争: マイクロソフトは左に進んで 2B、グーグルは右に進んで 2C

AI時代の到来非常にドラマチックなのは、Microsoft Build 開発者会議と Google...

「認知の輪」を解読する:AIと人間の究極の戦い

今日は週末なので、深遠な話をするふりをして話をしましょう。現在、人工知能について議論する場合、ほとん...

Scikit-learn をご存知ですか?これらの機能をご存知ですか?

[[229302]]ビッグデータ概要編纂者: 王暁奇、大潔瓊、アイリーンScikit-learn ...

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

トレンド1:中国の潜在力が爆発し、米国の優位性が揺らぐ[[226879]] 2017年、中国の人工知...

彼女はマスクとビットコインへの多額の投資により伝説となった! 2021年のトップ10テクノロジートレンドを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ここでは、あなたが歩むかもしれない未来の世界を描いた、自動運転に関する 73 の特徴を紹介します。

自動運転車の登場は私たちの生活のあらゆる側面に影響を与え、変化をもたらすでしょう。未来はどうなるの...

機械学習によって IoT アプリケーションのセキュリティはどのように向上するのでしょうか?

モノのインターネットの世界は手の届くところにありますが、それには良い面と悪い面の両方が伴います。機械...

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...

AIがすぐに作家に取って代わることはないだろうが、その未来はあなたが思っているよりも近いかもしれない

人工知能は、多くの企業にとってコンテンツマーケティングと管理の効率化に大きな役割を果たしています。 ...

2020年に人工知能はどのように発展するでしょうか?機械学習のトップ専門家が予測するトレンド

[[311763]]人工知能はもはや、いつか世界を変える準備をしているのではなく、すでに世界を変えて...

ITとビジネスの調和を実現する: デジタル変革にローコードが不可欠な理由

[51CTO.com クイック翻訳]ビジネスの世界では、デジタルトランスフォーメーションという言葉を...

2020 年のデータサイエンスのトレンド

企業が自社が所有するビッグデータを高速かつ効率的、コスト効率よく革新的な方法で活用することをますます...