トランスフォーマーの層が 2 層未満で、注意ブロックのみの場合、GPT-3: 問題を起こそうとしていますか?

トランスフォーマーの層が 2 層未満で、注意ブロックのみの場合、GPT-3: 問題を起こそうとしていますか?

過去 2 年間にわたり、Transformer アーキテクチャに基づいて開発された大規模言語モデルは、パフォーマンス (言語の流暢性など) において驚くべき結果を達成しました。

しかし、Transformer はどのようにして単語を処理するのでしょうか? 学界ではまだ明確な答えはありません。一般的な理解としては、トランスフォーマー モデルは、一度に「グローバル」な分析を実行するために、何らかの方法で複数の単語に同時に対応できるということです。しかし、それが正確にどのように機能するか、またはこれがトランスフォーマー モデルが実際にどのように機能するかは不明です。

言い換えれば、私たちは料理の材料は知っているが、レシピは知らないのです。

この問題に対処するため、Anthropic AI という会社の研究者たちは、トランスフォーマーがテキストを処理および生成する際に何をするのかを根本的に明らかにすることを目的として 2 つの研究を実施しました。

彼らは、2 層未満で注意ブロックのみを備えたトランスフォーマーが、いくつかの側面で複雑なトランスフォーマーの効果を実現でき、その背後にある動作メカニズムの理解に役立つことを発見しました。

1. 2層未満の変圧器

12月に発表された最初の論文(下記)では、Anthropic AIの研究者がトランスフォーマーの簡略版を研究し、その機能を詳しく説明しました。

この研究は、イスラエル工科大学のヨナタン・ベリンコフ氏から高く評価されました。「この論文は、非常に単純な状況でトランスフォーマーのアーキテクチャがどのように機能するかをうまく説明しています。」 「私はこの研究に非常に楽観的です。興味深く、将来性があり、独特で斬新です。」

論文アドレス: https://transformer-circuits.pub/2021/framework/index.html

論文によれば、研究対象となったトランスフォーマーの簡略版は、まず基本的な言語パターンを学習し、その後、一般的な言語処理能力を獲得したという。ハーバード大学のマーティン・ワッテンバーグ教授は、この研究によって変圧器の競争力が大幅に向上し、変圧器の動作原理が明らかになったとコメントした。

3月8日に発表された2番目の論文では、研究者らは、簡略化された変圧器モデルの機能が最も複雑な変圧器モデルでも機能することを示しました。単純なモデルにおける彼らの発見は、より大きなモデルにも適用できる可能性がある。これらの単純化されたモデルの背後にある数学はまだ解明されていませんが、その結果は変圧器をより深く理解するための新たな道を示しています。

論文アドレス: https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

トランスフォーマーを理解するのが難しいのは、その抽象的な性質にあります。従来のプログラムは、たとえば「緑」という単語を見ると「草」という単語を出力するなど、合理的なプロセスに従いますが、トランスフォーマーは「緑」という単語を数値に変換し、それを特定の値で乗算します。これらの値(パラメータとも呼ばれます)によって、次の単語が何になるかが決まります。トレーニング中にパラメータが微調整され、モデルは最適な出力を生成する方法を学習しますが、モデルが正確に何を学習しているかは不明です。

ほとんどの機械学習プログラムは、数学的な部分を「ニューロン」と呼ばれるモジュール要素にカプセル化します。トランスフォーマーは、ニューロンと同じようにグループとレイヤーに配置されるアテンション ヘッドと呼ばれる別の要素を追加します。しかし、頭部はニューロンとは異なる動作を実行します。一般的に、head によりプログラムは複数の入力単語を記憶できると考えられていますが、これは部分的にしか理解されていません。

トランスフォーマーの仕組みをより深く理解するために、Anthropic AI の研究者は、すべてのニューロン層と、1 つまたは 2 つのアテンション ヘッド層を除くすべての層を削除して、トランスフォーマーのアーキテクチャを簡素化しました。これにより、彼らは、トランスフォーマーと、すでに十分に理解していたより単純なモデルとの間のつながりを発見することができました。

最も単純な言語モデルである、基本的な言語パターンを再現するバイグラム モデルを見てみましょう。たとえば、大量のテキストでトレーニングすると、バイグラム モデルは「green」という単語の後に最も頻繁に続く単語 (「grass」など) を認識して記憶します。そして、テキストを生成するときに、同じパターンを再現します。入力された単語ごとに関連する後続の単語を記憶することで、言語の非常に基本的な知識を獲得します。

研究者らは、注意ヘッドの単層を備えたトランスフォーマー モデルにも同じ能力があり、記憶された内容を再現できることを示しました。 「スミス医師は、X医師のせいで店に行きました...」などの特定の入力が与えられたとします。この入力はプロンプトまたはコンテキストと呼ばれます。次の単語 X が「Smith」を指していることは明らかです。

トレーニングされた単層モデルでは、アテンション ヘッドは 2 つのステップで予測を行うことができます。まず、コンテキスト内の最後の単語 (Doctor) を見て、最後の単語と関連付けるために (トレーニング中に) 学習した特定の単語をコンテキストで検索します。次に、見つかった単語に対して、その単語と関連付けることを学習した別の単語を検索します。バイグラム モデルの場合と同様に、これは同じ単語である可能性があります。この関連付けられた単語はモデルの出力として使用されます。

上記の例では、研究者たちは、脳が最後の単語「Doctor」に基づいて一般的な名前を検索する方法を知るように訓練されていることを示しました。文の前半で「Smith」という名前を見つけた後、ヘッドは「Smith」と関連付けるために学習した内容を確認し、その単語を出力として提供します。この場合、モデルは「Smith」という同じ単語を、見つかった単語「Smith」と関連付けることを学習しました。このプロセス全体の最終的な効果は、モデルが「Smith」という単語をコンテキストから出力にコピーすることです。

キャプション:左から右へ:クリス・オラー、キャサリン・オルソン、ネルソン・エルハージ

しかし、今のところ、メモリは 1 つのモードしか採用できません。スミスの名前を「ギガムル」のような架空の名前に置き換えたらどうなるか考えてみましょう。次の単語を予測するのは簡単ですが、モデルはトレーニング中に作られた単語を認識しないため、その単語と他の単語との関係を記憶したり、生成したりすることはできません。

2.誘導ヘッドを導入する

Anthropic チームはまた、2 層の注意ヘッドを備えたモデルなど、より複雑なモデルを検討すると、解決策が浮かび上がることも発見しました。これは、注意ヘッドの独自の能力に依存しており、情報を出力だけでなくコンテキスト内の他の場所にも移動します。この機能により、第 1 層のヘッドは以前の単語の情報を活用し、文脈内で各単語に注釈を付ける方法を学習できます。 2 番目のヘッドは、「Doctor」の前の単語 (この場合は「Gigamuru」) を検索し、単層モデルのヘッドと同様に出力に移動します。

研究者たちは、前の層と連携する注意ヘッドを誘導ヘッドと呼んでいます。それは単なる思い出以上のものを提供します。 Nelson Elhage 氏が説明しているように、抽象的な推論やアルゴリズムの実装に似た作業も実行できます。

誘導ヘッドにより、2 層モデルはより高い効率を達成できますが、実物大の変圧器には協調して動作する数百の誘導ヘッドがあるため、実物大の変圧器との関連性は不明です。 2 番目の論文では、研究者らは、これらの発見が継続していることを示しています。誘導ヘッドは、いくつかの最も複雑な多層構造の動作において重要な役割を果たしているようです。

これらの行動の中で、モデルはテキストを完成させることのみを訓練されていたため、算数能力が際立っていました。たとえば、「Q: 48+76 はいくらですか? A: 124、Q: 48+76 はいくらですか? A: 124」というプロンプトを繰り返し与えた場合、実物大モデルは正しい答えを出します。繰り返しのない例が十分に与えられれば、これまで見たことのない算数の問題に正しく答えることができるようになります。文脈から新しい能力を学習するこの現象は、文脈学習と呼ばれます。

文脈から学習することは不可能であるため、この現象は不可解です。これは、モデルのパフォーマンスを決定するパラメータが、モデルが入力コンテキストを処理しているときではなく、トレーニング中にのみ調整されるためです。

誘導ヘッドは問題の少なくとも一部を解決します。彼らは、シンプルで反復的な形式の文脈学習を可能にする方法を説明し、モデルがトレーニングされていない新しい単語(「Gigamuru」や「124」など)を複製する機能という望ましい機能を提供します。

「誘導ヘッドは、多少奇妙であったり斬新であったりしても、どんなパターンでも実行する可能性が高い」と、Anthropic の共著者であるキャサリン・オルソン氏は述べた。

研究者らはさらに、多段階モデル​​における帰納的思考を特定し、言語間の翻訳学習など、文脈学習の新しい形態に帰納的思考が関与していることを示した。

「これはメカニズム全体を説明することではありません」とOpenAIのジェイコブ・ヒルトン氏は言う。 「ただ、インダクションヘッドが関係しているようです。」

これらの結果は、変圧器モデルを理解するための足がかりとなります。彼らは知識を習得するだけでなく、これまでまったく学んでいなかった事柄に対処する方法も学んでいます。おそらく、その動作メカニズムを理解することで、私たちは「素晴らしい」変圧器にそれほど驚かなくなったり、感心したりしなくなるでしょう。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  機械学習の発展が吹き替え技術の向上にどのように役立つか

>>:  人工知能はどのようにして新しい世界を創造するのでしょうか?

ブログ    
ブログ    

推薦する

ジェネレーティブ AI がサプライ チェーンと調達の役割をどのように変革しているか

実際、生成 AI は近い将来、企業全体の販売、マーケティング、調達、サプライ チェーンにおける人間の...

データは今日のビジネスに競争上の優位性をもたらすことができるのでしょうか?

データは今やさまざまな産業に統合され、世界市場のハイライトとなっています。現在の経済成長はデータと切...

...

...

...

2022 年のソフトウェア開発に関する 5 つの予測

[[435157]] [51CTO.com クイック翻訳]すべての企業がソフトウェア企業になりつつあ...

AIoTは単なる発言ではない

みなさんこんにちは。今日はAIoTについてお話します。 AIoT、つまり AI + IoT は、人工...

...

...

コードを入力すること、詩を書くこと、論文を書くこと、すべてが可能です!史上最大のAIモデルGPT-3がGithubを席巻

[[334935]]最近、GPT-3が人気になってきました!インターネット上で GPT-3 のさまざ...

O(n) アルゴリズムは実際にタイムアウトします。この時点で n はどのくらいの大きさでしょうか?

[[412223]]生徒の中には、コンピューターの実行速度の概念がわからない人もいるかもしれません...

AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」

システムに閉じ込められた配達員たちは反撃している。最近、海外のテクノロジーメディアWiredは、プラ...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...

軽量ディープラーニングフレームワーク Tinygrad

Tinygrad は、ニューラル ネットワークを理解して実装するためのシンプルで直感的なアプローチ...

...