中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、優れたタスク処理機能を備えているにもかかわらず、LLM はその膨大なサイズと計算要件に起因する大きな課題に直面しています。たとえば、GPT-175B バージョンには 1,750 億という驚異的なパラメータがあり、少なくとも 320 GB (1024 の倍数を使用) の半精度 (FP16) 形式のストレージが必要です。さらに、このモデルを推論用に展開するには、効率的に実行するために、それぞれ 80 GB のメモリを搭載した少なくとも 5 つの A100 GPU が必要です。

これらの問題に対処するには、モデル圧縮と呼ばれる方法が解決策となります。モデル圧縮により、大規模でリソースを大量に消費するモデルを、制約のあるモバイルデバイスでの保存に適したコンパクトなバージョンに変換できます。さらに、モデルを最適化して、レイテンシを最小限に抑えながらより高速に実行したり、これらの目標のバランスを実現したりすることもできます。

技術的な側面に加えて、LLM は環境や倫理の問題に関する議論も引き起こしました。これらのモデルは、開発途上国のエンジニアや研究者にとって大きな課題となります。開発途上国では、限られたリソースが、モデルに必要な基本的なハードウェアの入手の障壁となる可能性があります。 LLMの大量のエネルギー消費は二酸化炭素排出量を増加させます。人工知能の研究と持続可能な開発も非常に重要な問題です。これらの課題に対する解決策の 1 つは、パフォーマンスに大きな影響を与えずに炭素排出量を削減できる可能性のあるモデル圧縮技術を活用することです。これにより、人間は環境問題を解決し、AI のアクセシビリティを高め、LLM 展開における包括性を促進することができます。

この記事では、中国科学院情報工学研究所と中国人民大学高陵人工知能学院の研究者が、LLM 向けに特別に調整されたモデル圧縮技術の最近の進歩について説明します。この論文では、方法、指標、ベンチマークの徹底的な調査と分類を提供します。

論文アドレス: https://arxiv.org/pdf/2308.07633.pdf

下の図 1 に示すように、この論文で提案された分類法は、LLM のモデル圧縮方法を理解するための完全な構造化されたフレームワークを提供します。この調査には、プルーニング、知識蒸留、量子化、低ランク因数分解など、既存の成熟した技術の徹底的な分析が含まれます。さらに、この論文では、現在の課題を明らかにし、この発展途上の分野における将来の研究の方向性を展望しています。

研究者たちはまた、LLM にとって環境に配慮した、包括的で持続可能な未来への道を切り開くために、コミュニティの協力を提唱しています。この論文は、特に LLM に焦点を当てたモデル圧縮分野における最初の調査であることは注目に値します。

方法論

剪定

プルーニングは、不要なコンポーネントや冗長なコンポーネントを削除することで、モデルのサイズや複雑さを軽減する強力な手法です。ご存知のとおり、モデルのパフォーマンスにほとんど影響を与えない冗長なパラメータが多数存在するため、これらの冗長なパラメータを直接削除しても、モデルのパフォーマンスに大きな影響は生じません。同時に、プルーニングは、モデルのストレージ、メモリ効率、コンピューティング効率の観点から、より優れたものになります。

プルーニングは、非構造化プルーニングと構造化プルーニングに分けられます。 2 つの主な違いは、プルーニングの目的と、結果として得られるネットワーク構造にあります。構造化プルーニングは、ネットワーク全体の構造を維持しながら、特定のルールに基づいて接続または階層構造を削除します。非構造化プルーニングは単一のパラメータを対象とし、不規則なスパース構造につながる可能性があります。最近の研究では、LLM に関連する大規模性と計算コストに対処することを目的として、LLM とプルーニング技術を組み合わせることに専念しています。

知識の蒸留

知識蒸留 (KD) は、モデルのパフォーマンスと一般化能力の向上を目的とした実用的な機械学習手法です。この技術は、教師モデルと呼ばれる複雑なモデルから、生徒モデルと呼ばれるより単純なモデルに知識を転送します。 KD の中心的な考え方は、教師モデルの包括的な知識を、よりスリムで効果的な表現に変換することです。この論文では、LLM を教師モデルとして使用する蒸留アプローチの概要を説明します。

研究者は、LLM の創発能力 (EA) を小さなモデル (SLM) に抽出することに重点を置いているかどうかに基づいて、これらの方法を分類します。したがって、これらの方法は、標準 KD と EA ベースの KD の 2 つのカテゴリに分類されます。視覚的表現タスクについては、図 2 に LLM 知識蒸留の簡単な分類を示します。

下の図 3 は、EA ベースの蒸留の概要を示しています。

定量化

モデル圧縮の分野では、量子化はディープラーニングモデルのストレージと計算のオーバーヘッドを軽減する手法として広く受け入れられています。重みは伝統的に浮動小数点数を使用して表されますが、量子化によって整数またはその他の離散形式に変換されます。この変換により、ストレージ要件と計算の複雑さが大幅に削減されます。ある程度の精度の低下はあるものの、洗練された量子化技術により、精度の低下を最小限に抑えながら大幅なモデル圧縮を実現できます。

量子化は、量子化を考慮したトレーニング (QAT)、量子化を考慮した微調整 (QAF)、およびトレーニング後の量子化 (PTQ) という 3 つの主な方法に分けられます。これらの方法の主な違いは、モデルを圧縮するために量子化が適用されるタイミングにあります。 QAT はモデルのトレーニング中に量子化を適用し、QAF は事前トレーニング済みモデルの微調整フェーズ中に量子化を適用し、PTQ はトレーニングが完了した後にモデルを量子化します。

最近の研究では、量子化を利用して LLM を圧縮することに重点が置かれており、印象的な結果が得られています。これらの研究は、主に、量子化を考慮したトレーニング、量子化を考慮した微調整、トレーニング後の量子化という、前述の 3 つの方法に分けられます。さらに、以下の表 1 は、LLM に適用された定量的手法の概要です。表では、LLM 重みのビット数 (精度) に基づいて、これらのジョブを 8 ビット量子化と低ビット量子化に分割しています。

低ランク分解

低ランク分解は、与えられた重み行列を、次元が大幅に低い 2 つ以上の小さな行列に分解して近似することを目的としたモデル圧縮手法です。低ランク分解の中心的な考え方は、大きな重み行列 W を 2 つの行列 U と V に分解することです。つまり、W ≈ UV となります。ここで、U は m×k 行列、V は k×n 行列で、k は m や n よりもはるかに小さくなります。 U と V の積は元の重み行列に近似し、パラメータの数と計算オーバーヘッドが大幅に削減されます。

LLM 研究分野では、LORA やその変種などの LLM を効果的に微調整するために、低ランク分解が広く採用されています。この論文では、低ランク分解を使用して LLM を圧縮するこれらの研究に焦点を当てています。 LLM モデル圧縮の分野では、研究者はパフォーマンスを維持しながらより効果的な圧縮を実現するために、LoRAPrune や ZeroQuantFP などのプルーニングや量子化を含む複数の手法を低ランク分解と組み合わせることがよくあります。

この分野の研究が進むにつれて、低ランク分解を適用して LLM を圧縮する技術がさらに進歩する可能性がありますが、LLM の可能性を最大限に活用するには、まだ調査と実験が必要です。

指標とベンチマーク

測定

LLM の推論効率は、さまざまなメトリックを使用して測定できます。これらのメトリックはパフォーマンスのさまざまな側面を考慮しており、通常は LLM の精度とゼロショット学習機能の包括的な評価とともに提示されます。

これらの指標には次のものが含まれます。

パラメータスケール
モデルスケール
圧縮比
推論の時間
浮動小数点演算 (FLOP)

ベンチマーク

このベンチマークは、圧縮されていない LLM と比較した圧縮 LLM の有効性、効率性、および精度を測定することを目的としています。これらのベンチマークは通常、さまざまなタスクとデータセットで構成され、さまざまな自然言語処理の課題をカバーします。一般的なベンチマークには、HULK や ELUE などがあります。

最後に、研究者たちは、以下の分野でさらなる調査を行う必要があると考えています。