Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

大規模モデルの時代において、Transformer は科学研究分野全体を一手にサポートします。 Transformer ベースの LLM はリリース以来、さまざまなタスクで優れたパフォーマンスを発揮しており、その基盤となる Transformer アーキテクチャは自然言語モデリングと推論の最先端技術となり、コンピュータービジョンや強化学習などの分野で大きな期待が寄せられています。

ただし、現在の Transformer アーキテクチャは非常に大きく、通常、トレーニングと推論に大量のコンピューティングリソースが必要になります。

これは意図的なものであり、より多くのパラメータやデータでトレーニングされた Transformer は明らかに他のモデルよりも優れた能力を発揮します。それにもかかわらず、Transformer ベースのモデルやニューラルネットワークでは、学習した仮説を維持するためにすべての適合パラメータは必要ないことを示す研究が増えています。

一般的に、モデルをトレーニングするときに、モデルを大幅に過剰にパラメータ化することは役立つと思われますが、これらのモデルは推論前に大幅に削減することができます。研究によると、ニューラルネットワークでは、パフォーマンスが大幅に低下することなく、重みの 90% 以上を削除できることが多いことがわかっています。この現象により、研究者はモデル推論を容易にする剪定戦略の研究に目を向けるようになりました。

MIT と Microsoft の研究者は、論文「真実はそこにあります: レイヤー選択的ランク削減による言語モデルの推論の改善」の中で、Transformer モデルの特定のレイヤーを慎重に削減すると、特定のタスクにおけるモデルのパフォーマンスが大幅に向上するという驚くべき発見をしました。

論文アドレス: https://arxiv.org/pdf/2312.13558.pdf
論文ホームページ: https://pratyushasharma.github.io/laser/

この研究では、この単純な介入をLASER（LAyer SElective Rank Reduction）と呼んでいます。これは、特異値分解を通じてTransformerモデルの特定の層の学習重み行列の高次成分を選択的に削減し、LLMのパフォーマンスを大幅に向上させるものです。この操作は、モデルのトレーニング後に実行でき、追加のパラメータやデータは必要ありません。

操作中、重みの削減はモデル固有の重みマトリックスとレイヤーで実行され、研究では多くの同様のマトリックスで重みを大幅に削減できることも判明し、通常、コンポーネントの 90% 以上が完全に削除されるまでパフォーマンスの低下は見られません。

この研究では、こうした削減によって精度が大幅に向上することも判明したが、これは自然言語に限らず、強化学習でもパフォーマンスの向上が見られるという。

さらに、この研究では、高次コンポーネントに何が格納されているかを推測し、それらを削除してパフォーマンスを向上できるようにしようとしています。研究では、LASER が質問に正しく答えた後、介入前には、元のモデルは主に高頻度語 (「the」、「of」など) で応答していたことが判明しました。これらの語は、正解と意味タイプが同じではありません。言い換えると、これらのコンポーネントにより、介入なしではモデルは無関係な高頻度語を生成することになります。

ただし、ある程度のランク削減を実行することで、モデルの回答を正しいものに変換できます。

これを理解するために、研究者らは残りのコンポーネントがそれぞれ何をエンコードしているかを調査し、高次特異ベクトルのみを使用して重みマトリックスを近似しました。これらの構成要素は、正解と同じ意味カテゴリ内の異なる応答または共通の高頻度語を説明していることがわかりました。

これらの結果は、ノイズの多い高次コンポーネントが低次コンポーネントと組み合わされると、それらの矛盾する応答によって平均回答が不正確になる可能性があることを示唆しています。図 1 は、Transformer のアーキテクチャと LASER が実行する手順を視覚的に示しています。ここでは、多層パーセプトロン (MLP) の特定の層の重み行列が、その低ランク近似値に置き換えられます。

LASERの概要

研究者らはレーザー介入について詳しく説明しています。シングルステップ LASER 介入は、パラメータ τ、レイヤー数 ℓ、およびランク削減 ρ を含む 3 つの要素 (τ、ℓ、ρ) によって定義されます。これらの値を組み合わせることで、どの行列が低ランク近似に置き換えられるか、また近似がどの程度厳密であるかが説明されます。研究者は、介入するマトリックスのタイプを分類するためにパラメータタイプに依存します。

研究者らは、MLP 層と注意層の行列で構成される W = {W_q、W_k、W_v、W_o、U_in、U_out} 内の行列に注目しました。層番号は研究者が介入した層を示します (最初の層は 0 からインデックス付けされます)。たとえば、Llama-2 には 32 層あるため、ℓ ∈ {0, 1, 2,…31} となります。

最後に、ρ∈[0, 1)は、低ランク近似を行うときに最大ランクのどの部分を保持する必要があるかを表します。たとえば、とすると、行列の最大階数は d です。研究者たちはそれを⌊ρ・d⌋近似に置き換えた。

下の図 1 は LASER の例です。ここで、τ = U_in および ℓ = L は、L 番目の層の Transformer ブロック内の MLP の最初の層の重み行列を更新することを表しています。別のパラメータは、ランク k 近似における k を制御します。

LASER は、ネットワーク内の特定の情報の流れを制限し、予期せぬ大幅なパフォーマンス上の利点を生み出すことができます。これらの介入は簡単に組み合わせることができ、一連の介入を任意の順序で適用できます。

LASER アプローチは、そのような介入を単純に検索し、最大の利益をもたらすように修正したものです。しかし、これらの介入を組み合わせる方法は他にもたくさんあり、それが研究者による今後の研究の方向性となります。

実験結果

実験部分では、研究者らは、27 層と 60 億のパラメータを持つ PILE データセットで事前トレーニングされた GPT-J モデルを使用しました。次に、モデルの動作は CounterFact データセットで評価されます。このデータセットには、(トピック、関係、回答) トリプレットのサンプルが含まれており、質問ごとに 3 つの言い換えプロンプトが提供されます。

まず、CounterFact データセット上の GPT-J モデルの分析です。下の図 2 は、Transformer アーキテクチャ内の各マトリックスに異なる量のランク削減を適用した場合の、データセットの分類損失への影響を示しています。各 Transformer レイヤーは小さな 2 層 MLP で構成され、入力マトリックスと出力マトリックスが個別に表示されます。異なる色は、削除されたコンポーネントの異なる割合を示します。

解釈の精度と堅牢性の向上に関しては、上の図 2 と下の表 1 に示すように、研究者らは、ランク削減を単一レイヤーで実行すると、CounterFact データセット上の GPT-J モデルのファクト精度が 13.1% から 24.0% に向上することを発見しました。これらの改善はランクの削減の結果に過ぎず、モデルのさらなるトレーニングや微調整は行われないことに注意することが重要です。

データセット内のどの事実がランク削減によって回復されるでしょうか?研究者たちは、下の図 3 に示すように、ランク削減によって回復された事実がデータにほとんど現れない可能性が高いことを発見しました。

高階コンポーネントには何が格納されますか?研究者らは、下の図 5 (a) に示すように、高次コンポーネントを使用して最終的な重みマトリックスを近似しました (LASER のように低次コンポーネントを使用する代わりに)。彼らは、下の図5(b)に示すように、異なる数の高次成分を使用して行列を近似した場合の、予測された答えに対する真の答えの平均コサイン類似度を測定しました。

最後に、複数の言語理解タスクにおける 3 つの異なる LLM への調査結果の一般化可能性を評価します。各タスクについて、生成精度、分類精度、損失という 3 つの指標を使用してモデルのパフォーマンスを評価しました。上記の表 1 に示すように、ランクの削減が大きくてもモデルの精度が低下することはなく、モデルのパフォーマンスを向上させることができます。

<<: 大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

>>: モデル量子化とエッジAIがインタラクションを定義する方法