OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニングすることで単純なモデルを理解する方法を説明した論文を発表しました。

Anthropic が発表した研究では、人工知能の魂を見ることができたと主張している。次のようになります:

写真

写真

論文アドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

研究者らの見解では、この新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測し、理解することができるという。

Anthropic の説明可能性チームは最近、シミュレートされた AI システムで抽象的な高次元特徴空間を因数分解することに成功したと発表しました。

「AIブラックボックス」を理解するための説明可能なAIの作成

研究者たちはまず、非常に単純な512個のニューロンを持つAIにテキストを予測するトレーニングを行い、次に「オートエンコーダー」と呼ばれる別のAIに最初のAIの活性化パターンを予測するトレーニングを行った。

オートエンコーダーは、一連の特徴(高次元 AI のニューロンの数に対応)を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。

元の AI のニューロン自体は理解しにくいものでしたが、新しい AI のシミュレートされたニューロン (または「機能」) は一義的で、各機能が特定の概念または機能を表すことがわかりました。

たとえば、機能 #2663 は「神」という概念を表します。

写真

それを活性化する最強の訓練フレーズは、「ヨセフス」の記録から来ています。「神が吹雪を降らせたとき、彼はセフォリスに行きました。」

上部のアクティベーションはすべて「神」のさまざまな使用法に関するものであることがわかります。

このシミュレートされたニューロンは、実際のニューロンのグループ (407、182、および 259 を含む) で構成されているようです。

これらの実際のニューロン自体は「神」とはほとんど関係がありません。たとえば、ニューロン 407 は主に英語以外の文字 (特にアクセント付きのラテン文字) と非標準のテキスト (HTML タグなど) に反応します。

しかし、機能レベルではすべて順調です。機能 2663 がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する可能性が高くなります。

この AI は、「神」の概念とモンスターの名前の「神」を区別しません。これは、単純な AI にはこのタスクを具体的に処理するのに十分な神経リソースがないためである可能性があります。

しかし、AI の機能が増えるにつれて、状況は変わります。

写真

ツリーの下部では、特徴が増えるにつれて、AI が数学的な用語で「the」をどのように理解しているかがわかります。

まず、数学用語の「the」にはなぜ特別な特徴があるのでしょうか。これはおそらく、特定の「the」の後には「分子」や「余弦」などの数学用語が続くはずであることを知るという AI の予測ニーズによるものと思われます。

研究者が訓練した最小の AI には 512 個の特徴しかなく、「the」の特徴は 1 つだけだったが、16,384 個の特徴を持つ最大の AI では、その特徴は機械学習における「the」の特徴、複素解析における「the」の特徴、位相幾何学と抽象代数における「the」の特徴へと分岐していた。

したがって、システムがより多くのシミュレートされたニューロンを持つ AI にアップグレードされた場合、「神」を表す特徴は 2 つに分割される可能性があります。1 つは宗教における「神」の意味を表し、もう 1 つはモンスターの名前における「神」の意味を表します。

後に、キリスト教に神が存在するかもしれないし、ユダヤ教に神が存在するかもしれないし、哲学に神が存在するかもしれない、など。

研究チームは、実際のニューロンとそれに対応するシミュレートされたニューロンの 412 セットに対して主観的な解釈可能性の評価を実施し、シミュレートされたニューロンの解釈可能性が全体的に優れていることを発見しました。

写真

「神」などの一部の機能は、特定の概念に固有のものです。

最も解釈しやすいものも含め、他の多くの高度に解釈可能な機能は、大文字や小文字、英語や他のアルファベットなど、テキストを表すために使用される「形式」です。

写真

これらの特徴はどの程度一般的でしょうか? つまり、同じテキスト データで 2 つの異なる 4096 特徴の AI をトレーニングした場合、それらの AI は 4096 特徴のほとんど同じものを持つでしょうか? どちらにも「神」を表す特徴がいくつかあるでしょうか?

それとも、最初の AI が「神」と「ゴジラ」を一緒にし、2 番目の AI がそれらを分離するのでしょうか? 2 番目の AI には「神」を表す機能がまったくなく、そのスペースを使用して最初の AI が理解できない他の概念を保存するのでしょうか?

研究チームがテストを実行したところ、2 つの AI モデルが非常に似ていることがわかりました。

平均すると、最初のモデルに特徴があった場合、2 番目のモデルで最も類似した特徴の相関の中央値は 0.72 になります。

写真

AIの魂を見る

その後の作品はどうなるのでしょうか?

5月に、OpenAIはGPT-4(非常に大きい)にGPT-2(非常に小さい)を理解させようと試みました。彼らは、GPT-4 に GPT-2 の 307,200 個のニューロンのそれぞれを調べさせ、発見した内容を報告させました。

GPT-4 は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していないため、興味深い結果と無意味な結果が混在していることがわかりました。

結果は控えめなものだったが、それは野心的な試みだった。

人類学的説明可能性の記事の AI とは異なり、GPT-2 はかつて世間に感銘を与えた本物の (ただし非常に小さい) AI です。

しかし、研究の最終的な目標は、主流の AI システムを説明できるようにすることです。

人類学的解釈可能性チームは、いくつかの理由から、まだそこに到達していないことを認めています。

まず、オートエンコーダをスケールアップすることは困難です。 GPT-4(またはAnthropicの同等物であるClaude)のようなシステムを説明するには、ほぼ同じサイズの説明AIが必要です。

しかし、この規模で AI をトレーニングするには、膨大な計算能力と資金援助が必要です。

第二に、説明のスケーラビリティも問題です。

たとえ神やゴジラ、その他すべてのもののシミュレートされたニューロンをすべて見つけ、それらがどのように接続されているかを示す巨大なグラフを描いたとしても。

研究者は、何百万もの特徴と接続を伴う複雑な相互作用を必要とする、より複雑な質問に答える必要があります。

したがって、何らかの自動化されたプロセス、つまり、ある種のより大規模な「GPT-4 に GPT-2 が何をしているかを知らせる」プロセスが必要になります。

最後に、これらすべては人間の脳について何を教えてくれるのでしょうか?

人間もニューラル ネットワークを使用して概念を推論し、処理します。

人間の脳には多くのニューロンがあり、GPT-4 も同様です。

人間が利用できるデータも非常に少なく、日常生活ではほとんど登場しない概念(イカなど)も数多くあります。

より大きな脳もシミュレートしているのでしょうか?

これはまだ非常に新しい研究分野ですが、人間の視覚皮質のニューロンは AI モデルで観察されるパターンと同様に、ある程度超局所的な方法で特徴をエンコードすることを示唆する予備的な調査結果がいくつかあります。

参考: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

<<: 

>>:  マイクロソフトリサーチアジア、ウェイ・フル氏:人工知能における基礎イノベーションの第2次成長曲線

ブログ    
ブログ    

推薦する

OpenAIの内部抗争による被害はまだまだ終わっていない

OpenAI の最近の論争を受けて、AI エンジニアや企業はその API への依存を減らしたり、完全...

機械学習は計算化学研究の発展にどのように役立つのでしょうか?

過去数年間、化学研究は、個人の経験と文献から得られた過去の研究結果を使用する実験方法のみに焦点を当て...

人工知能は親密な関係の「大きな殺し屋」

人工知能の存在は仕事や生活だけではなく、感情にも存在します。仕事の後で退屈を感じたら、たまごっちを飼...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

...

Bard と ChatGPT: 2 つの言語モデルの頂点対決

Bard と ChatGPT は、それぞれ Google AI と OpenAI によって開発された...

中国における医療用人工知能の現状分析:製品検証から市場検証まで

2016年以降、人工知能と医療の融合があらゆる面で火花を散らし始めています。医療AIは数年にわたる開...

SLAM の新時代を切り開きましょう! NeRFと3D GS法のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能 VS 人間: 私たちは本当にいつも負け続けるのでしょうか?

ディープ・ブルー・コンピュータシステムがチェスチャンピオンのガルリ・カスパロフを華々しく破ってから2...

91.3%の成長、「スマート」な製造業の実現は協働ロボットにかかっている

中国は、インダストリー4.0の提案と国家インテリジェント製造2025開発計画の公布により、製造大国か...

...

...

6種類の負荷分散アルゴリズムの概要

C言語を学んだ友人やIT関係の人ならアルゴリズムには詳しいと思います。したがって、分野が異なれば、ア...

Java ME での衝突検出アルゴリズムの実装

Java ME ゲーム開発では、衝突検出アルゴリズムを実装する必要があることがよくあります。たとえば...