この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

少し前に、Google Brain チームの論文「Attention Is All You Need」の Transformer アーキテクチャ図とコードに矛盾があると指摘するツイートが大きな議論を巻き起こしました。

セバスチャンの発見は意図しないミスだったと考える人もいるが、同時に奇妙でもある。結局のところ、Transformer 論文の人気を考えると、この矛盾は 1,000 回も前に言及されているはずでした。

セバスチャン・ラシュカ氏はネットユーザーからのコメントに応えて、「最もオリジナルな」コードは確かにアーキテクチャ図と一致しているが、2017年に提出されたコードバージョンはアーキテクチャ図を更新せずに変更されたと述べた。これは「矛盾」の議論の根本的な原因でもあります。

その後、セバスチャンは Ahead of AI に記事を掲載し、オリジナルの Transformer アーキテクチャ図がコードと一致しなかった理由を具体的に説明し、いくつかの論文を引用して Transformer の開発と変更について簡単に説明しました。

以下は記事の原文です。記事に実際に何が書かれているか見てみましょう。

数か月前、私は「大規模言語モデルの理解: 最新情報を入手するための最も関連性の高い文献の横断」を共有しましたが、肯定的なフィードバックをいただき、とても励みになりました。したがって、リストを最新かつ関連性のあるものに保つために、いくつかの論文を追加しました。

同時に、全員が妥当な時間内に理解できるよう、リストを簡潔に保つことが重要です。多くの情報を含む論文もいくつかあるので、それも含めるべきだと考えます。

Transformer を歴史的な観点から理解するのに役立つ 4 つの論文を紹介します。これらは「大規模言語モデルの理解」の記事に直接追加しましたが、「大規模言語モデルの理解」を以前に読んだことがある人が簡単に見つけられるように、この投稿でも個別に共有しました。

Transformer アーキテクチャにおけるレイヤーの正規化について (2020)

以下の元の Transformer ダイアグラム (左) は、元のエンコーダー/デコーダー アーキテクチャの便利な概要ですが、小さな違いが 1 つあります。たとえば、残差ブロック間のレイヤー正規化を行いますが、これは元の Transformer 論文に付属する公式の (更新された) コード実装と一致しません。下の図 (中央) に示すバリエーションは、Post-LN Transformer と呼ばれます。

Transformer アーキテクチャの論文のレイヤー正規化では、Pre-LN の方が適切に機能し、以下に示すように勾配の問題を解決できることが示されています。多くのアーキテクチャでは実際にこのアプローチを採用していますが、表現の崩壊につながる可能性があります。

したがって、Post-LN と Pre-LN のどちらを使用するかについてはまだ議論が続いていますが、両方を一緒に適用することを提案する新しい論文もあります: ResiDual: Transformer with Dual Residual Connections ですが、実際に役立つかどうかはまだわかりません。


図注: 画像出典: https://arxiv.org/abs/1706.03762 (左と中央)、https://arxiv.org/abs/2002.04745 (右)

高速重みメモリの制御の学習: 動的リカレントニューラルネットワークの代替 (1991)

この投稿は、現代のトランスフォーマーとほぼ同じような歴史的な小話や初期のアプローチに興味がある方におすすめです。

たとえば、Transformer 論文の 25 年前の 1991 年に、Juergen Schmidhuber は、Fast Weight Programmers (FWP) と呼ばれるリカレント ニューラル ネットワークの代替案を提案しました。 FWP 法には、勾配降下法によってゆっくりと学習し、別のニューラル ネットワークの急速な重みの変化をプログラムするフィードフォワード ニューラル ネットワークが含まれます。

このブログ投稿では、現代のトランスフォーマーとの類似点を次のように説明しています。

今日の Transformer 用語では、FROM と TO はそれぞれキーと値と呼ばれます。高速ネットワークが適用される入力はクエリと呼ばれます。基本的に、クエリはキーと値の外積の合計である高速重みマトリックスによって処理されます(正規化と投影は無視されます)。両方のネットワークのすべての操作は微分可能であるため、加法的な外積または 2 次テンソル積を介して、エンドツーエンドの微分可能なアクティブ制御の高速な重み変更が得られます。したがって、低速ネットワークは勾配降下法を介して学習し、シーケンス処理中に高速ネットワークを迅速に修正することができます。これは、正規化を除いて、線形化された自己注意を備えたトランスフォーマー (または線形トランスフォーマー) として知られるようになったものと数学的に同等です。

上記の抜粋で述べたように、このアプローチは現在、線形トランスフォーマーまたは線形化された自己注意を備えたトランスフォーマーと呼ばれています。これらは、2020 年に arXiv に掲載された論文「Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention」(https://arxiv.org/abs/2006.16236) および「Rethinking Attention with Performers」(https://arxiv.org/abs/2009.14794) からの抜粋です。

2021 年に発表された論文「線形トランスフォーマーは秘密に高速な重みプログラマーである」(https://arxiv.org/abs/2102.11174) では、線形化された自己注意と 1990 年代の高速重みプログラマーの同等性が明示的に示されました。


画像ソース: https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

テキスト分類のためのユニバーサル言語モデルの微調整 (2018)

これは歴史的な観点から見ても非常に興味深い論文です。これはオリジナルの『Attention Is All You Need』の 1 年後に書かれたもので、トランスフォーマーについては触れず、代わりにリカレント ニューラル ネットワークに焦点を当てていますが、それでも見る価値はあります。言語モデルの事前トレーニングと転移学習の下流タスクを効果的に提案するためです。転移学習はコンピュータービジョンでは十分に確立されていますが、自然言語処理 (NLP) の分野ではまだ普及していません。 ULMFit (https://arxiv.org/abs/1801.06146) は、事前トレーニング済みの言語モデルを特定のタスクで微調整した後、多くの NLP タスクで SOTA 結果を生成できることを示した最初の論文の 1 つです。

ULMFit が推奨する言語モデルの微調整プロセスは、次の 3 つの段階に分かれています。

  • 1. 大規模なテキストコーパスで言語モデルをトレーニングする。
  • 2. タスク固有のデータに基づいて事前トレーニング済みの言語モデルを微調整し、テキストの特定のスタイルと語彙に適合させます。
  • 3. タスク固有のデータに基づいて分類器を微調整し、レイヤーを徐々に解凍することで壊滅的な忘却を回避します。

大規模なコーパスで言語モデルをトレーニングし、その後下流のタスクで微調整するというこのアプローチは、Transformer ベースのモデルや BERT、GPT-2/3/4、RoBERTa などの基本モデルで使用される中核的なアプローチです。

ただし、ULMFiT の重要な部分である段階的な解凍は、Transformer アーキテクチャでは通常、すべてのレイヤーを一度に微調整するため、実際には実行されません。


Gopher は、LLM トレーニングを理解するための多くの分析を含む特に優れた論文です (https://arxiv.org/abs/2112.11446)。研究者らは、3000億個のトークンに対して、80層、2800億個のパラメータを持つモデルをトレーニングした。これには、LayerNorm (レイヤー正規化) の代わりに RMSNorm (二乗平均平方根正規化) を使用するなど、いくつかの興味深いアーキテクチャの変更が含まれます。 LayerNorm と RMSNorm はどちらもバッチ サイズに制限がなく、同期を必要としないため、BatchNorm よりもパフォーマンスが優れています。これは、バッチ サイズが小さい分散設定では有利です。 RMSNorm は一般的に、より深いアーキテクチャでのトレーニングを安定化すると考えられています。

これらの興味深い情報に加えて、この記事の主な焦点は、さまざまな規模でのタスクのパフォーマンスを分析することです。 152 種類の異なるタスクの評価では、モデル サイズを増やすことは理解、事実確認、有害な言語の特定などのタスクに最も効果的である一方、アーキテクチャの拡張は論理的および数学的推論に関連するタスクにはほとんど効果がないことがわかりました。

図注: 出典: https://arxiv.org/abs/2112.11446

<<:  Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

>>: 

ブログ    

推薦する

K12教育におけるAIとIoT

デジタル化により市場のグローバル化のプロセスが加速しました。新しいテクノロジーは、従来のビジネスモデ...

AIはクラウドコンピューティング大手の次の競争の焦点となる

人工知能が今日の情報技術分野で最もホットな話題であることは疑いの余地がなく、情報産業を豊かにし、改善...

Hehe情報:AI + ビッグデータ、デジタル金融をさらに進化させる

[51CTO.comからのオリジナル記事] 2020年、COVID-19パンデミックは世界経済に深刻...

変革のトレンド: ジェネレーティブ AI とソフトウェア開発への影響

人工知能の出現により、ソフトウェア開発の継続的な発展が加速しています。この強力なテクノロジーは、ソフ...

あなたの顔を「動かした」のは誰?顔認識技術の背後にあるプライバシー保護

[[392874]] 4月9日午後、中国初の顔認識訴訟が杭州中級人民法院で最終判決を受けた。被告杭州...

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...

IoTの未来が機械学習に依存する理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...

...

人工知能を活用してより質の高い雇用を実現

科学技術の発展に伴い、人工知能によって引き起こされた新たな科学技術と産業革命は、わが国の雇用に持続的...

あらゆるビジネスオペレーションに AI を効果的に適用する 10 の方法

企業は、業務に AI を実装するさまざまな方法を分析し、理解する必要があります。 人工知能(AI)は...

人工知能による画像認識では、データのラベル付けはどのように機能するのでしょうか?

画像処理技術の急速な発展に伴い、画像認識技術が生まれ、発展し、徐々に人工知能分野の重要な部分となり、...

ディープラーニングの将来の発展に向けた3つの学習パラダイム:ハイブリッド学習、コンポーネント学習、簡易学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

顔を変える技術の悪用に対抗するため、Googleはディープフェイクと戦うための大規模なデータセットを公開

ディープフェイクの出現以来、多くの論争を引き起こし、多くの倫理的、社会的問題を引き起こしてきました。...

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...