RoSA: 大規模モデルパラメータを効率的に微調整する新しい方法

RoSA: 大規模モデルパラメータを効率的に微調整する新しい方法

言語モデルが前例のない規模にまで拡大し続けるにつれて、下流のタスクのすべてのパラメータを微調整することは非常に高価になり、PEFT メソッドは自然言語処理の研究のホットスポットになりました。 PEFT アプローチでは、微調整を少数のパラメータに制限し、少ない計算コストで自然言語理解タスクにおける最先端のパフォーマンスを実現します。

RoSA は新しい PEFT テクノロジーです。一連のベンチマークの実験では、RoSA は同じパラメータ バジェットを使用しながら、以前の Low-Rank Adaptation (LoRA) や純粋なスパース微調整手法よりも優れたパフォーマンスを発揮しました。

この記事では、RoSA の原則、方法、および結果について詳しく説明します。そして、そのパフォーマンスがなぜ有意義な進歩を示すのかを説明します。大規模な言語モデルを効率的に微調整したいと考えている人のために、RoSA は従来のオプションよりも優れた新しいソリューションを提供します。

効率的なパラメータ微調整の必要性

NLP は、大規模なテキストコーパスで事前トレーニングすることで強力な言語表現を学習し、簡単なプロセスを通じて下流の言語タスクに転送する、ますます大規模になる一連のトランスフォーマーベースの言語モデル (GPT-4 など) によって革命を起こしました。

モデルのサイズが数十億から数兆のパラメータに拡大するにつれて、微調整には耐えられない計算負荷がかかります。 GPT-4 の 1.76 兆個のパラメータを微調整するには、数百万ドルの費用がかかる可能性があります。これにより、実際のアプリケーションへの展開はほとんど非現実的になります。

パラメータ効率の良い微調整 (PEFT) 手法は、微調整を各タスクのパラメータの小さなセットに制限することでこの問題に対処します。最近の文献では、効率と精度の間でさまざまなトレードオフを行うさまざまな PEFT 技術が提案されています。

ローラ

代表的な PEFT 手法は Low Rank Adaptation (LoRA) です。 LoRA は、トランスフォーマーがヘッドマトリックスに低ランク構造を示すという観察に基づいて、2021 年に Meta と MIT の研究者によって立ち上げられました。

LoRA は、各トランスフォーマー ヘッドの最初の k 個の特異ベクトル ペアのみを微調整し、他のすべてのパラメーターは変更しません。これには O(k) 個の追加パラメータの調整のみが必要ですが、n 個のパラメータすべてを包括的に微調整するには O(n) 個の調整が必要になります。

この低ランク構造を活用することで、LoRA は下流のタスクでの一般化に必要な意味のある信号をキャプチャし、これらのトップレベルの特異ベクトルへの微調整を制限して、最適化と推論をより効率的にすることができます。

実験では、LoRA は 100 倍以上少ないパラメータを使用しながら、GLUE ベンチマークで完全に微調整されたバージョンのパフォーマンスに匹敵できることが示されています。ただし、モデルのサイズが大きくなり続けると、LoRA で強力なパフォーマンスを実現するにはランク k を増やす必要があり、完全な微調整に比べて計算の節約が減少します。

RoSA 以前は、LoRA が PEFT 手法の最先端を代表していましたが、さまざまな行列分解や、少数の微調整パラメータの追加などの手法を使用することで、わずかな改善しか行われていませんでした。

ロバスト適応 (RoSA)

Robust Adaptation (RoSA) は、効率的なパラメータの微調整のための新しい方法を導入します。 RoSA は、低ランク構造のみに依存するのではなく、堅牢な主成分分析 (堅牢な PCA) に着想を得ています。

従来の主成分分析では、データ行列 X は X≈L + S に分解されます。ここで、L は主成分を近似する低ランク行列であり、S は残差を捕捉するスパース行列です。ロバスト PCA はさらに一歩進んで、X をクリーンな低ランクの L と「汚染された/破損した」スパースな S に分解します。

RoSA はこれにインスピレーションを得て、言語モデルの微調整を次のように分解します。

  • タスク関連の主要信号を近似するように微調整されたLoRAのような低ランク適応型(L)行列
  • L が見逃す残差信号をエンコードする、非常に少数の大きな選択的に微調整されたパラメータを含む、非常にスパースな微調整 (S) マトリックス。

残差スパース成分を明示的にモデル化することで、RoSA は LoRA 単独よりも高い精度を実現できます。

RoSA は、モデルのヘッド マトリックスの低ランク分解を実行して L を構築します。これにより、下流のタスクに役立つ低レベルのセマンティック表現がエンコードされます。次に、RoSA は各レイヤーの上位 m 個の最も重要なパラメータを S に選択的に微調整しますが、他のすべてのパラメータは変更しません。このステップでは、低ランクフィッティングに適さない残差信号をキャプチャします。

微調整パラメータの数 m は、LoRA のみに必要なランク k よりも 1 桁小さくなります。したがって、L の低ランクのヘッド マトリックスと組み合わせると、RoSA は非常に高いパラメーター効率を維持します。

RoSA では、他にもシンプルだが効果的な最適化がいくつか採用されています。

  • 残差スパース接続: S 残差は、レイヤー正規化とフィードフォワードサブレイヤーを通過する前に、各トランスフォーマーブロックの出力に直接追加されます。これにより、L が逃した信号をシミュレートできます。
  • 独立したスパースマスク: 微調整のために S で選択されたメトリックは、各トランスフォーマー レイヤーごとに独立して生成されます。
  • 共有低ランク構造: LoRA と同様に、同じ低ランク基底 U、V 行列が L のすべてのレイヤー間で共有されます。これにより、意味概念が一貫したサブスペースにキャプチャされます。

これらのアーキテクチャの選択により、最適化と推論のパラメータ効率を維持しながら、完全な微調整と同様の柔軟性を RoSA モデリングに提供します。堅牢な低ランク適応と非常にスパースな残差を組み合わせたこの PEFT アプローチを活用することで、RoSA は精度と効率のトレードオフを実現する新しい手法を実現します。

実験と結果

研究者らは、テキスト検出、感情分析、自然言語推論、堅牢性テストなどのタスクをカバーする 12 の NLU データセットの包括的なベンチマークで RoSA を評価しました。彼らは、120億のパラメータモデルを使用して、LLMに基づくAIアシスタントであるRoSAで実験を実施しました。

すべてのタスクにおいて、同じパラメータを使用した場合、RoSA は LoRA よりも大幅に優れたパフォーマンスを発揮します。両方の方法の合計パラメータは、モデル全体の約 0.3% です。これは、LoRA の場合は k = 16、RoSA の場合は m = 5120 を意味し、どちらの場合も約 450 万の微調整されたパラメータがあることを意味します。

RoSA は、純粋にスパースな微調整ベースラインのパフォーマンスと同等か、それを上回ります。

敵対的サンプルに対する堅牢性を評価する ANLI ベンチマークでは、RoSA のスコアは 55.6 で、LoRA のスコアは 52.7 です。これは一般化と調整の改善を示しています。

感情分析タスク SST-2 および IMDB では、RoSA は 91.2% と 96.9% の精度を達成し、LoRA は 90.1% と 95.3% の精度を達成しました。

WIC(難しい語義の曖昧さ解消テスト)では、RoSA は F1 スコア 93.5 を達成し、LoRA は F1 スコア 91.7 を達成しました。

12 個のデータセット全体にわたって、一致したパラメータ バジェットでは、RoSA は一般に LoRA よりも優れたパフォーマンスを示します。

驚くべきことに、RoSA はタスク固有の調整や特殊化を必要とせずにこれらの利点を達成できます。これにより、RoSA は汎用的な PEFT ソリューションとして適したものになります。

要約する

言語モデルのサイズが急速に拡大し続けているため、微調整に必要な計算量を削減することが、対処が必要な緊急の課題となっています。 LoRA のようなパラメータ効率の高い適応型トレーニング手法は初期の成功を示していますが、低ランク近似の固有の制限に直面しています。

RoSA は、堅牢な低ランク分解と残差の非常にスパースな微調整を有機的に組み合わせて、説得力のある新しいソリューションを提供します。選択的にスパースな残差を通じて低ランクのフィッティングを逃れる信号を考慮することで、PEFT のパフォーマンスが大幅に向上します。実証的な評価では、さまざまな NLU タスク セットで LoRA および制御されていないスパース ベースラインよりも明らかに改善されていることが示されています。

概念的にはシンプルですが高性能な RoSA は、パラメータ効率、適応表現、継続的な学習の交差点での研究をさらに進め、言語インテリジェンスを拡張します。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ブロックチェーンは人工知能をどのように変えるのでしょうか?

人工知能とブロックチェーンは、現在人気が高まっている2つの人気産業です。 2つの技術は異なり、商業的...

2019-2020年中国人工知能コンピューティングパワー開発評価報告書が発表

​​​​この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を...

ビッグデータ、人工知能、ロボットの血縁関係とは?

ビッグデータ、人工知能(AI)、ロボット、アルゴリズム、ディープラーニング、モノのインターネット、セ...

...

ビッグデータナレッジグラフの実践経験のまとめ

データサイエンティストとして、業界の新しい知識グラフをまとめ、技術専門家と共有し、ビッグデータの知識...

学覇君主任科学者陳瑞峰:テクノロジーを活用して知識のサイロ化を減らし、教育の効率化を実現する

[51CTO.comからのオリジナル記事] 学習圧力が高く、教育資源の配分が不均衡な中国の教育システ...

人工知能の時代、主役となるのは誰でしょうか?

[[382357]] 1990年代、米国はコンピュータ産業の早期発展の機会をいち早く捉え、デジタル...

ベクトル検索エンジン: 大規模な言語モデルの検索と強化された生成のための強力なツール

翻訳者|朱 仙中レビュー | Chonglou導入大規模言語モデル (LLM) が世界を席巻するにつ...

TSMC、7nmチップの商業生産を開始

TSMCのCEOである魏哲佳氏は、TSMCの7nm生産能力の増加が予想よりも遅いという最近の憶測を否...

サイバー攻撃が自動運転車に勝てない理由

マルウェア、ランサムウェア、ウイルス、サービス拒否攻撃など、これらの脅威は回復が困難なため、企業を窮...

自動運転は飛躍的な進歩を遂げており、マスク氏は年内にL5レベルの自動運転が実現すると発言した。

自動運転技術は、世界中の大手自動車メーカーの主要な研究開発方向となっています。現在、多くの自動車メー...

商用 AI をマスターする: RAG と CRAG を使用したエンタープライズ レベルの AI プラットフォームの構築

当社のガイドで、ビジネスに AI の力を活用する方法を学びましょう。 RAG と CRAG の統合、...

プログラマーの間でデータ構造やアルゴリズムに関する知識が一般的に不足していることについてどう思いますか?

多くのプログラマーの目には、データ構造やアルゴリズムなどは役に立たず、実際に使用されることもあまりな...

ゲームAIの課題が進み、リアルタイム戦略ゲームや不完全情報ゲームがホットスポットに

前回の 2 つの記事では、ゲーム AI の歴史におけるいくつかの古典的なアルゴリズムと画期的なイベン...

Java における 4 つの基本的な暗号化アルゴリズムの分析

シンプルな Java 暗号化アルゴリズムは次のとおりです。厳密に言えば、BASE64 は暗号化アルゴ...