正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

  [[431684]]

オリジナルの Transformer アーキテクチャでは、LayerNorm は通常 Residual の後に来ます。これは Post-LN (Post-Layer Normalization) Transformer と呼ばれます。このモデルは、機械翻訳やテキスト分類など、多くの自然言語タスクで優れたパフォーマンスを発揮します。

最近の研究では、Post-LN トランスフォーマーでは、ネットワークの後層では、前層に比べて勾配の大きさが大きいことが示されています。

実践では、Pre-LN Transformer は、より大きな学習率または非常に小さな学習率を使用してウォームアップすることができ、通常は Post-LN Transformer よりも優れたパフォーマンスが得られることがわかっているため、最近では大規模な事前トレーニング済み言語モデルでは Pre-LN Transformer が使用される傾向があります。

Facebook AI の研究者は、Pre-LN は Post-LN よりも安定性を向上させるものの、前のレイヤーの勾配が後のレイヤーの勾配よりも大きくなることが多いという欠点もあることを示しています。これらの問題は、本研究で提案された NormFormer によって軽減できます。NormFormer は、各レイヤーに 3 つの正規化操作 (自己注意の後のレイヤー正規化の追加、自己注意出力のヘッドワイズ拡張、最初の完全接続レイヤーの後のレイヤー正規化の追加) を追加することで、勾配の大きさの不一致の問題を軽減します (図 1 の中央を参照)。これらの操作により、前のレイヤーの勾配が減少し、後のレイヤーの勾配が増加し、異なるレイヤーの勾配の大きさが近くなります。

さらに、これらの追加操作では計算コストは​​ごくわずか(+0.4% のパラメータ増加)ですが、1 億 2,500 万パラメータから 27 億パラメータに及ぶ因果モデルやマスクされた言語モデルなどの下流タスクでのモデルの事前トレーニングの複雑さとパフォーマンスが向上します。たとえば、最強の 13 億パラメータ ベースラインの上に NormFormer を追加すると、同等のパープレキシティが 24% 改善され、同じ計算予算でパープレキシティが 0.27 倍向上します。このモデルは、GPT3-Large (1.3B) ゼロショットと同じパフォーマンスを 60% 高速に達成します。マスクされた言語モデルの場合、NormFormer は微調整された GLUE パフォーマンスを平均 1.9% 向上させます。

論文アドレス: https://arxiv.org/pdf/2110.09456.pdf

計算的に一致し、微調整された Pre-LN ベースラインと比較すると、NormFormer モデルはターゲットの事前トレーニング済みパープレキシティに早く到達し、より優れた事前トレーニング済みパープレキシティと下流のタスク パフォーマンスを実現します。

論文の第一著者であるサム・シュライファー氏はツイッターで「私たちが実験したあらゆる拡張(最大27億パラメータ)においてGPT-3を上回る新しい言語モデリングアーキテクチャであるNormFormerをリリースできてうれしいです」と述べた。

ケベック州モントリオール学習アルゴリズム研究所の機械学習研究者イーサン・カバレロ氏は、次のように述べています。「必要なのは、さらなる正規化だけです。GPT-3 アーキテクチャで NormFormer を使用することで、SOTA パフォーマンス、22% の速度向上、下流タスクでのゼロショット パフォーマンスの強化が実現しました。」

メソッドアーキテクチャ

NormFormer は、Pre-LN トランスフォーマーに 3 つの変更を加えます。アテンション モジュール内でヘッドワイズ スケーリングを適用し、2 つの追加の LayerNorm 操作 (1 つはアテンション モジュールの後、もう 1 つは最初の完全に接続されたレイヤーの後) を追加します。これらの変更により、少数の追加の学習可能なパラメータが導入され、各レイヤーでコスト効率よく特徴サイズを変更し、後続のコンポーネントの勾配サイズを変更できるようになります。これらの変更の詳細は、以下の図 1 に示されています。

注目のヘッドをスケーリングします。標準的なマルチヘッド アテンション操作は次のように定義されます。

研究者らは、学習したスカラー係数γ_iによって各注意ヘッドの出力をスケーリングすることを提案した。

追加のレイヤーにより、すべてのコンポーネントが正規化され、まとめられます。 Pre-LN トランスフォーマーでは、各レイヤー l は入力 x_l を次のように変更します。

対照的に、NormFormer は各入力 x_l を次のように変更します。

このうち、太字部分は新たに導入された操作です。

実験結果

カジュアル言語モデルについては、研究者らは Small (1 億 2,500 万パラメータ)、Medium (3 億 5,500 万パラメータ)、Large (13 億パラメータ)、XL (27 億パラメータ) の CLM モデルを事前トレーニングしました。

彼らは 3,000 億トークンのベースライン モデルをトレーニングし、同等の GPU 時間を使用して NormFormer モデルをトレーニングしました。NormFormer モデルでは、正規化操作の追加オーバーヘッドにより、通常、2%~6% 少ないステップとトークンが使用されました。

研究者らは、使用されたデータセットにおいて、GPT-3 で提案された学習率が最適ではなかったことを発見しました。そのため、27億パラメータのモデルを除くベースラインモデルとNormFormerモデルの各サイズについて、モデルを5万ステップトレーニングし、{1e−4、6e−4、3e−4、6e−4、1e−3、3e−3}の中から最もパフォーマンスの高い学習率を選択して学習率を調整しました。このプロセスで得られた学習率は表1に示されています。NormFormerの学習率はGPT-3の3〜5倍です。

マスク言語モデル(MLM)については、研究者らは、Liuら(2019)で使用されたRoBERTaベース、Pre-LNアーキテクチャ、ハイパーパラメータを採用しました。ベースライン モデルでは、100 万トークンで 200 万バッチを事前トレーニングしました。これは、元の roberta-base トレーニング バジェットの 4 分の 1 に相当します。比較すると、NormFormer は同じ時間内に 192 万バッチを実行します。

事前トレーニングデータについては、すべてのモデルは、CC100英語コーパスとBookCorpus、英語版Wikipedia、Common Crawlのフィルタリングされたサブセットで構成されるLiu et al. (2019)の英語テキストコレクションで事前トレーニングされました。

下の図 2 では、研究者は CLM と MLM のトレーニング前の困惑をトレーニング時間、つまり GPU 日数として表しています。ご覧のとおり、NormFormer は、与えられたトレーニング計算予算に対して、大幅に高速にトレーニングし、より優れた検証の難しさを実現します。

研究者らは下流のタスクでも同様の傾向を観察した。下の表2に示すように、研究者はBrown et al. (2020)のタスクとプロンプトを使用して、CLMモデルのゼロショット精度を観察しました。同様に、NormFormer はあらゆるサイズで GPT-3 よりも優れています。

MLM モデルの場合、研究者は GLUE の微調整精度を以下の表 3 に報告しています。繰り返しになりますが、NormFormer MLM モデルは、すべてのタスクにおいて Pre-LN モデルよりも優れたパフォーマンスを発揮します。

アーキテクチャの安定性を測定するために、研究者らは、損失が爆発するまで各ステップで学習率が少しずつ増加するように、非常に大きなピーク学習率を持つ学習率スケジュールを使用してアーキテクチャをトレーニングしました。図 5 は、NormFormer モデルがベースラインと比較してこの設定でより多くの更新を維持できることを示しています。

<<:  モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

>>:  商用アプリケーション向けディープラーニング画像キャプション技術

ブログ    

推薦する

機械学習が将来の雇用市場にどのような影響を与えるか

機械学習は、あらゆる業界、特に雇用と求人市場に変革をもたらし、エントリーレベルの職からトップレベルの...

...

汎用人工知能の実現に私たちはどれくらい近づいているのでしょうか?

今日、人工知能は人間が行う作業の一部をより良く行うために懸命に取り組んでいます。たとえば、AI は人...

機械学習におけるモデル展開とは何ですか?

機械学習におけるモデルのデプロイメントとは、機械学習モデルを既存の運用環境に統合し、入力を受け入れて...

AI博士号取得者の年収は80万元。AI人材の需要と供給はどれくらいですか?

「女性は間違った男性と結婚することを恐れ、男性は間違った職業を選択することを恐れる」という古い中国...

利益予測はもはや難しくありません。Scikit-learn 線形回帰法を使用すると、半分の労力で 2 倍の結果を得ることができます。

1. はじめに生成 AI は間違いなくゲームを変えるテクノロジーですが、ほとんどのビジネス上の問題...

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き!

制作:51CTO テクノロジースタック(WeChat ID:blog)深夜、OpenAI の最大のラ...

AIで意思決定を自動化するのは超簡単ですか?

人工知能とは何を意味するのでしょうか?人工知能はコンピュータサイエンスの範囲を指し、AI とは、設計...

人工知能時代の到来とともに、私たちはどんな知識を学ぶべきでしょうか?

将来、AI知能ロボット翻訳は根本的な進歩を遂げ、筆記翻訳、口頭通訳、同時通訳など、人間による翻訳作業...

あらゆる場所でのAI実現へ: 人工知能分野におけるインテルの躍進

[51CTO.comからのオリジナル記事]クラウドコンピューティング、ビッグデータ、5G、モノのイン...

...

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されていま...

人工知能研究における大きな進歩は人類に大きな変化をもたらすだろう

アメリカのテクノロジーの天才イーロン・マスク氏は、彼の研究チームが脳と機械の相互接続を可能にする脳・...

...

...