OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニングすることで単純なモデルを理解する方法を説明した論文を発表しました。

Anthropic が発表した研究では、人工知能の魂を見ることができたと主張している。次のようになります:

写真

論文アドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

研究者らの見解では、この新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測し、理解することができるという。

Anthropic の説明可能性チームは最近、シミュレートされた AI システムで抽象的な高次元特徴空間を因数分解することに成功したと発表しました。

「AIブラックボックス」を理解するための説明可能なAIの作成

研究者たちはまず、非常に単純な512個のニューロンを持つAIにテキストを予測するトレーニングを行い、次に「オートエンコーダー」と呼ばれる別のAIに最初のAIの活性化パターンを予測するトレーニングを行った。

オートエンコーダーは、一連の特徴（高次元 AI のニューロンの数に対応）を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。

元の AI のニューロン自体は理解しにくいものでしたが、新しい AI のシミュレートされたニューロン (または「機能」) は一義的で、各機能が特定の概念または機能を表すことがわかりました。

たとえば、機能 #2663 は「神」という概念を表します。

写真

それを活性化する最強の訓練フレーズは、「ヨセフス」の記録から来ています。「神が吹雪を降らせたとき、彼はセフォリスに行きました。」

上部のアクティベーションはすべて「神」のさまざまな使用法に関するものであることがわかります。

このシミュレートされたニューロンは、実際のニューロンのグループ (407、182、および 259 を含む) で構成されているようです。

これらの実際のニューロン自体は「神」とはほとんど関係がありません。たとえば、ニューロン 407 は主に英語以外の文字 (特にアクセント付きのラテン文字) と非標準のテキスト (HTML タグなど) に反応します。

しかし、機能レベルではすべて順調です。機能 2663 がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する可能性が高くなります。

この AI は、「神」の概念とモンスターの名前の「神」を区別しません。これは、単純な AI にはこのタスクを具体的に処理するのに十分な神経リソースがないためである可能性があります。

しかし、AI の機能が増えるにつれて、状況は変わります。

写真

ツリーの下部では、特徴が増えるにつれて、AI が数学的な用語で「the」をどのように理解しているかがわかります。

まず、数学用語の「the」にはなぜ特別な特徴があるのでしょうか。これはおそらく、特定の「the」の後には「分子」や「余弦」などの数学用語が続くはずであることを知るという AI の予測ニーズによるものと思われます。

研究者が訓練した最小の AI には 512 個の特徴しかなく、「the」の特徴は 1 つだけだったが、16,384 個の特徴を持つ最大の AI では、その特徴は機械学習における「the」の特徴、複素解析における「the」の特徴、位相幾何学と抽象代数における「the」の特徴へと分岐していた。

したがって、システムがより多くのシミュレートされたニューロンを持つ AI にアップグレードされた場合、「神」を表す特徴は 2 つに分割される可能性があります。1 つは宗教における「神」の意味を表し、もう 1 つはモンスターの名前における「神」の意味を表します。

後に、キリスト教に神が存在するかもしれないし、ユダヤ教に神が存在するかもしれないし、哲学に神が存在するかもしれない、など。

研究チームは、実際のニューロンとそれに対応するシミュレートされたニューロンの 412 セットに対して主観的な解釈可能性の評価を実施し、シミュレートされたニューロンの解釈可能性が全体的に優れていることを発見しました。

写真

「神」などの一部の機能は、特定の概念に固有のものです。

最も解釈しやすいものも含め、他の多くの高度に解釈可能な機能は、大文字や小文字、英語や他のアルファベットなど、テキストを表すために使用される「形式」です。

写真

これらの特徴はどの程度一般的でしょうか? つまり、同じテキストデータで 2 つの異なる 4096 特徴の AI をトレーニングした場合、それらの AI は 4096 特徴のほとんど同じものを持つでしょうか? どちらにも「神」を表す特徴がいくつかあるでしょうか?

それとも、最初の AI が「神」と「ゴジラ」を一緒にし、2 番目の AI がそれらを分離するのでしょうか? 2 番目の AI には「神」を表す機能がまったくなく、そのスペースを使用して最初の AI が理解できない他の概念を保存するのでしょうか?

研究チームがテストを実行したところ、2 つの AI モデルが非常に似ていることがわかりました。

平均すると、最初のモデルに特徴があった場合、2 番目のモデルで最も類似した特徴の相関の中央値は 0.72 になります。

写真

AIの魂を見る

その後の作品はどうなるのでしょうか？

5月に、OpenAIはGPT-4（非常に大きい）にGPT-2（非常に小さい）を理解させようと試みました。彼らは、GPT-4 に GPT-2 の 307,200 個のニューロンのそれぞれを調べさせ、発見した内容を報告させました。

GPT-4 は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していないため、興味深い結果と無意味な結果が混在していることがわかりました。

結果は控えめなものだったが、それは野心的な試みだった。

人類学的説明可能性の記事の AI とは異なり、GPT-2 はかつて世間に感銘を与えた本物の (ただし非常に小さい) AI です。

しかし、研究の最終的な目標は、主流の AI システムを説明できるようにすることです。

人類学的解釈可能性チームは、いくつかの理由から、まだそこに到達していないことを認めています。

まず、オートエンコーダをスケールアップすることは困難です。 GPT-4（またはAnthropicの同等物であるClaude）のようなシステムを説明するには、ほぼ同じサイズの説明AIが必要です。

しかし、この規模で AI をトレーニングするには、膨大な計算能力と資金援助が必要です。

第二に、説明のスケーラビリティも問題です。

たとえ神やゴジラ、その他すべてのもののシミュレートされたニューロンをすべて見つけ、それらがどのように接続されているかを示す巨大なグラフを描いたとしても。

研究者は、何百万もの特徴と接続を伴う複雑な相互作用を必要とする、より複雑な質問に答える必要があります。

したがって、何らかの自動化されたプロセス、つまり、ある種のより大規模な「GPT-4 に GPT-2 が何をしているかを知らせる」プロセスが必要になります。

最後に、これらすべては人間の脳について何を教えてくれるのでしょうか?

人間もニューラルネットワークを使用して概念を推論し、処理します。

人間の脳には多くのニューロンがあり、GPT-4 も同様です。

人間が利用できるデータも非常に少なく、日常生活ではほとんど登場しない概念（イカなど）も数多くあります。

より大きな脳もシミュレートしているのでしょうか?

これはまだ非常に新しい研究分野ですが、人間の視覚皮質のニューロンは AI モデルで観察されるパターンと同様に、ある程度超局所的な方法で特徴をエンコードすることを示唆する予備的な調査結果がいくつかあります。

参考: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

<<:

>>: マイクロソフトリサーチアジア、ウェイ・フル氏：人工知能における基礎イノベーションの第2次成長曲線

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

「AIブラックボックス」を理解するための説明可能なAIの作成

AIの魂を見る

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

初心者と専門家のための機械学習に関するベスト 10 書籍

岐路に立つ交通：自動運転の未来はどうなるのか？

人工知能が防犯カメラの機能を強化している

スマートカーシステムへの生体認証技術の統合

チャットボットのさまざまな種類について学ぶ

単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

推薦する

OpenAIの内部抗争による被害はまだまだ終わっていない

機械学習は計算化学研究の発展にどのように役立つのでしょうか?

人工知能は親密な関係の「大きな殺し屋」

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

Bard と ChatGPT: 2 つの言語モデルの頂点対決

中国における医療用人工知能の現状分析：製品検証から市場検証まで

SLAM の新時代を切り開きましょう! NeRFと3D GS法のレビュー

人工知能 VS 人間: 私たちは本当にいつも負け続けるのでしょうか?

テンセントは、分散ベクトル化統計分析と因果推論に使用できるデータコンポーネントであるFast-Causal-Inferenceをオープンソース化しました。

91.3%の成長、「スマート」な製造業の実現は協働ロボットにかかっている

6種類の負荷分散アルゴリズムの概要

Java ME での衝突検出アルゴリズムの実装