ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。 しかし、今は、ある程度の進歩がみられるようです。 ChatGPT の最大のライバルである Claude を開発している Anthropic 社は、辞書学習を使用して約 500 個のニューロンを約 4,000 個の解釈可能な特徴に分解することに成功しました。 写真 具体的には、ニューロンは解釈不可能ですが、この分解の後、Anthropic は各特徴が異なる意味を表していることを発見しました。たとえば、ニューロンの一部は DNA 配列を担い、他のニューロンは HTTP リクエストや法律文書などを表しており、解釈可能であることを意味します。 写真 これらの機能のいずれかを人工的に刺激することで、モデルが期待どおりの出力を出すように誘導できます。 たとえば、DNA 機能をオンにするとモデルは DNA を出力し、アラビア語テキスト機能をオンにするとモデルはアラビア語テキストを出力します。 写真 アントロピックは興奮してこう述べた。 彼らのアプローチは、AI の説明不可能性という大きな障害を克服する可能性が高い。 言語モデルの仕組みを理解すれば、モデルが安全かどうか、社会や企業に採用されるべきかどうかを判断することが容易になります。 写真 詳しく見てみましょう。 辞書学習による言語モデルの分解まず、言語モデルだけに関して言えば、その解釈不可能性は、ネットワーク内のほとんどのニューロンが「多意味的」であるという事実に主に反映されています。 つまり、無関係な複数の事柄に反応できるのです。 たとえば、小規模な言語モデル内のニューロンは、学術的な引用、英語の会話、HTTP リクエスト、韓国語のテキストなど、さまざまなコンテンツに対して同時に強く活性化する可能性があります。 写真 これにより、ニューラル ネットワークの各部分の特定の機能と相互作用を理解することができず、ネットワーク全体の動作を推測できなくなります。 では、多義性を引き起こす原因は何でしょうか? 昨年早くも、Anthropic は、潜在的な要因の 1 つは「重ね合わせ」であると推測していました。 これは、モデルが多数の無関係な概念を少数のニューロンに圧縮する操作を指します。 写真 同時に、Anthropic は、辞書学習、つまり物事の最も重要な特徴を抽出し、最終的には辞書を引くように新しい知識を獲得できるようにすることが、この問題の解決策であるとも指摘しました。 以前、彼らは重ね合わせのおもちゃのモデルを提案し、次のことを証明しました。
2 つ目は、辞書学習を使用して、重ね合わせを示すモデルで超完全な特徴基底を見つけることです。 3 番目は、最初の 2 つの方法を組み合わせることです。 実験により、方法 1 では多義性を排除するのに十分ではなく、方法 2 では深刻な過剰適合の問題があることが示されました。 そこで、チームはスパースオートエンコーダと呼ばれる弱い辞書学習アルゴリズムを採用しました。 トレーニングされたモデルから学習した特徴を生成することができ、モデルニューロン自体よりも意味的にスケーラブルな分析単位を提供します。 全体として、このアルゴリズムは、ニューラル ネットワークのアクティベーションでの辞書学習を使用する方法や分離など、多くの過去の研究に基づいて構築されています。 結果として得られたエンコーダーは、重ね合わせから解釈可能な特徴を抽出することに「説得力のある成功」を達成しました。 具体的には、Anthropic は 512 個のニューロンを持つ単層 MLP トランスフォーマーを使用し、最終的に 80 億のデータ ポイントを持つ MLP アクティベーションでスパース オートエンコーダーをトレーニングして、MLP アクティベーションを比較的解釈しやすい特徴に分解します。拡張係数は 1 倍 (512 個の特徴) から 256 倍 (131072 個の特徴) の範囲になります。 Anthropic チームは、すべての解釈可能性分析を A/1 と呼ばれる単一の実行にまとめました。これには、それぞれ意味が注釈付けされた 4,096 個の機能が含まれており、必要に応じて手動でアクティブ化できます。 以下にそれらを視覚化したものを示します。 写真 7つの主要な結論を含む統合された長いレポートが発表されました。現在、Anthropic は上記の結果をすべてレポートの形で公開しています。 レポートのタイトルは「単一意味性に向けて: 辞書学習による言語モデルの分解」です。 この記事は非常に長く、4つの部分に分かれています。
一般的に、重要な結論は 7 つあります。 1. スパースオートエンコーダーを使用すると、意味的に比較的単純な特徴を抽出できますが、学習した特徴のほとんどは比較的解釈可能です。 2. スパースオートエンコーダは、ニューラル基盤ではほとんど目に見えない解釈可能な特徴を生成します。 3. スパースオートエンコーダの特徴は、トランスフォーマーの生成に介入してガイドするために使用できます。 たとえば、Base64 機能を有効にすると、モデルは Base64 テキストを生成し、Arabic 機能を有効にすると、アラビア語テキストが生成されます。 4. スパースオートエンコーダは比較的一般的な特徴を生成します。特徴は、自身のモデルニューロンよりも、互いに類似しています (「普遍性」セクションに対応)。 5. オートエンコーダのサイズを大きくすると、特徴が「分割」されるように見えます。たとえば、小さな辞書内の Base64 機能は、大きな辞書では 3 つに分割され、それぞれの意味はより微妙ですが、解釈可能です (「機能の分割可能性」セクションに対応)。 6. わずか 512 個のニューロンで数万の特徴を表現できます。 7. 機能を「有限状態オートマトン」に似たシステムに接続して、複雑な動作 (HTML 関数の生成など) を実現できます。 写真 もう一つコメント欄では、一部のネットユーザーが次のようにコメントした。 ニューロンは神秘的な箱のようなもので、Anthropic の研究は箱の中を覗く方法を研究することに相当する。 写真 明らかに、この作業はまだ始まりに過ぎません。 Anthropic 社は解釈可能性に関わる研究者やエンジニアの採用も強化している。 写真 クリックすると、給与は25万ドル(約180万人民元)から52万ドルの間であり、研究内容は上記のレポートと密接に関連していることがわかります。 レポートリンク: https://transformer-circuits.pub/2023/monosemantic-features/index.html 参考リンク: https://twitter.com/anthropicai/status/1709986949711200722 |
<<: 76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。
>>: GPT-4 が Nature の査読者になる?スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50%以上が人間の査読者と一致した。
人工知能は多くの業界のワークフローを変革しました。デジタル顧客サービスアシスタント、自動運転車、無人...
米国の科学者チームは、人工知能を利用して非常に短期間で新たな鉄鋼の代替品を発見したいと考えている。そ...
AI時代の到来非常にドラマチックなのは、Microsoft Build 開発者会議と Google...
今日は週末なので、深遠な話をするふりをして話をしましょう。現在、人工知能について議論する場合、ほとん...
[[229302]]ビッグデータ概要編纂者: 王暁奇、大潔瓊、アイリーンScikit-learn ...
トレンド1:中国の潜在力が爆発し、米国の優位性が揺らぐ[[226879]] 2017年、中国の人工知...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
自動運転車の登場は私たちの生活のあらゆる側面に影響を与え、変化をもたらすでしょう。未来はどうなるの...
今日の AI 時代では、自律エージェントは人工汎用知能 (AGI) への有望な道であると考えられてい...
モノのインターネットの世界は手の届くところにありますが、それには良い面と悪い面の両方が伴います。機械...
10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...
人工知能は、多くの企業にとってコンテンツマーケティングと管理の効率化に大きな役割を果たしています。 ...
[[311763]]人工知能はもはや、いつか世界を変える準備をしているのではなく、すでに世界を変えて...
[51CTO.com クイック翻訳]ビジネスの世界では、デジタルトランスフォーメーションという言葉を...
企業が自社が所有するビッグデータを高速かつ効率的、コスト効率よく革新的な方法で活用することをますます...