正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

[[431684]]

オリジナルの Transformer アーキテクチャでは、LayerNorm は通常 Residual の後に来ます。これは Post-LN (Post-Layer Normalization) Transformer と呼ばれます。このモデルは、機械翻訳やテキスト分類など、多くの自然言語タスクで優れたパフォーマンスを発揮します。

最近の研究では、Post-LN トランスフォーマーでは、ネットワークの後層では、前層に比べて勾配の大きさが大きいことが示されています。

実践では、Pre-LN Transformer は、より大きな学習率または非常に小さな学習率を使用してウォームアップすることができ、通常は Post-LN Transformer よりも優れたパフォーマンスが得られることがわかっているため、最近では大規模な事前トレーニング済み言語モデルでは Pre-LN Transformer が使用される傾向があります。

Facebook AI の研究者は、Pre-LN は Post-LN よりも安定性を向上させるものの、前のレイヤーの勾配が後のレイヤーの勾配よりも大きくなることが多いという欠点もあることを示しています。これらの問題は、本研究で提案された NormFormer によって軽減できます。NormFormer は、各レイヤーに 3 つの正規化操作 (自己注意の後のレイヤー正規化の追加、自己注意出力のヘッドワイズ拡張、最初の完全接続レイヤーの後のレイヤー正規化の追加) を追加することで、勾配の大きさの不一致の問題を軽減します (図 1 の中央を参照)。これらの操作により、前のレイヤーの勾配が減少し、後のレイヤーの勾配が増加し、異なるレイヤーの勾配の大きさが近くなります。

さらに、これらの追加操作では計算コストはごくわずか（+0.4% のパラメータ増加）ですが、1 億 2,500 万パラメータから 27 億パラメータに及ぶ因果モデルやマスクされた言語モデルなどの下流タスクでのモデルの事前トレーニングの複雑さとパフォーマンスが向上します。たとえば、最強の 13 億パラメータベースラインの上に NormFormer を追加すると、同等のパープレキシティが 24% 改善され、同じ計算予算でパープレキシティが 0.27 倍向上します。このモデルは、GPT3-Large (1.3B) ゼロショットと同じパフォーマンスを 60% 高速に達成します。マスクされた言語モデルの場合、NormFormer は微調整された GLUE パフォーマンスを平均 1.9% 向上させます。

論文アドレス: https://arxiv.org/pdf/2110.09456.pdf

計算的に一致し、微調整された Pre-LN ベースラインと比較すると、NormFormer モデルはターゲットの事前トレーニング済みパープレキシティに早く到達し、より優れた事前トレーニング済みパープレキシティと下流のタスクパフォーマンスを実現します。

論文の第一著者であるサム・シュライファー氏はツイッターで「私たちが実験したあらゆる拡張（最大27億パラメータ）においてGPT-3を上回る新しい言語モデリングアーキテクチャであるNormFormerをリリースできてうれしいです」と述べた。

ケベック州モントリオール学習アルゴリズム研究所の機械学習研究者イーサン・カバレロ氏は、次のように述べています。「必要なのは、さらなる正規化だけです。GPT-3 アーキテクチャで NormFormer を使用することで、SOTA パフォーマンス、22% の速度向上、下流タスクでのゼロショットパフォーマンスの強化が実現しました。」

メソッドアーキテクチャ

NormFormer は、Pre-LN トランスフォーマーに 3 つの変更を加えます。アテンションモジュール内でヘッドワイズスケーリングを適用し、2 つの追加の LayerNorm 操作 (1 つはアテンションモジュールの後、もう 1 つは最初の完全に接続されたレイヤーの後) を追加します。これらの変更により、少数の追加の学習可能なパラメータが導入され、各レイヤーでコスト効率よく特徴サイズを変更し、後続のコンポーネントの勾配サイズを変更できるようになります。これらの変更の詳細は、以下の図 1 に示されています。

注目のヘッドをスケーリングします。標準的なマルチヘッドアテンション操作は次のように定義されます。

研究者らは、学習したスカラー係数γ_iによって各注意ヘッドの出力をスケーリングすることを提案した。

追加のレイヤーにより、すべてのコンポーネントが正規化され、まとめられます。 Pre-LN トランスフォーマーでは、各レイヤー l は入力 x_l を次のように変更します。

対照的に、NormFormer は各入力 x_l を次のように変更します。

このうち、太字部分は新たに導入された操作です。

実験結果

カジュアル言語モデルについては、研究者らは Small (1 億 2,500 万パラメータ)、Medium (3 億 5,500 万パラメータ)、Large (13 億パラメータ)、XL (27 億パラメータ) の CLM モデルを事前トレーニングしました。

彼らは 3,000 億トークンのベースラインモデルをトレーニングし、同等の GPU 時間を使用して NormFormer モデルをトレーニングしました。NormFormer モデルでは、正規化操作の追加オーバーヘッドにより、通常、2%～6% 少ないステップとトークンが使用されました。

研究者らは、使用されたデータセットにおいて、GPT-3 で提案された学習率が最適ではなかったことを発見しました。そのため、27億パラメータのモデルを除くベースラインモデルとNormFormerモデルの各サイズについて、モデルを5万ステップトレーニングし、{1e−4、6e−4、3e−4、6e−4、1e−3、3e−3}の中から最もパフォーマンスの高い学習率を選択して学習率を調整しました。このプロセスで得られた学習率は表1に示されています。NormFormerの学習率はGPT-3の3〜5倍です。

マスク言語モデル（MLM）については、研究者らは、Liuら（2019）で使用されたRoBERTaベース、Pre-LNアーキテクチャ、ハイパーパラメータを採用しました。ベースラインモデルでは、100 万トークンで 200 万バッチを事前トレーニングしました。これは、元の roberta-base トレーニングバジェットの 4 分の 1 に相当します。比較すると、NormFormer は同じ時間内に 192 万バッチを実行します。

事前トレーニングデータについては、すべてのモデルは、CC100英語コーパスとBookCorpus、英語版Wikipedia、Common Crawlのフィルタリングされたサブセットで構成されるLiu et al. (2019)の英語テキストコレクションで事前トレーニングされました。

下の図 2 では、研究者は CLM と MLM のトレーニング前の困惑をトレーニング時間、つまり GPU 日数として表しています。ご覧のとおり、NormFormer は、与えられたトレーニング計算予算に対して、大幅に高速にトレーニングし、より優れた検証の難しさを実現します。

研究者らは下流のタスクでも同様の傾向を観察した。下の表2に示すように、研究者はBrown et al. (2020)のタスクとプロンプトを使用して、CLMモデルのゼロショット精度を観察しました。同様に、NormFormer はあらゆるサイズで GPT-3 よりも優れています。

MLM モデルの場合、研究者は GLUE の微調整精度を以下の表 3 に報告しています。繰り返しになりますが、NormFormer MLM モデルは、すべてのタスクにおいて Pre-LN モデルよりも優れたパフォーマンスを発揮します。

アーキテクチャの安定性を測定するために、研究者らは、損失が爆発するまで各ステップで学習率が少しずつ増加するように、非常に大きなピーク学習率を持つ学習率スケジュールを使用してアーキテクチャをトレーニングしました。図 5 は、NormFormer モデルがベースラインと比較してこの設定でより多くの更新を維持できることを示しています。

<<: モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー：計算コストは手頃ではない

>>: 商用アプリケーション向けディープラーニング画像キャプション技術