LoRAShear: LLM プルーニングと知識回復に関する Microsoft の最新研究

LoRAShear: LLM プルーニングと知識回復に関する Microsoft の最新研究

LoRAShear は、言語モデリング (LLM) を最適化し、知識を保存するために Microsoft が開発した新しいアプローチです。構造的なプルーニングが可能になり、計算要件が削減され、効率が向上します。

LHSPG テクノロジー (Lora Half-Space Projected Gradient) は、漸進的な構造化プルーニングと動的な知識回復をサポートします。依存グラフ分析とスパース最適化を通じて、さまざまな LLM に適用できます。

LoRAPrune は、LoRA と反復的な構造化プルーニングを組み合わせて、効率的なパラメータの微調整を実現します。 LLAMA v1 の実装では、大規模なプルーニングを行っても同等のパフォーマンスが維持されます。

進化する人工知能の分野では、言語モデリング (LLM) は、大量のテキスト データを処理し、関連情報をすばやく取得し、知識へのアクセス性を高めるための重要なツールとなっています。その影響は広範囲に及び、検索エンジンや質問応答システムの強化からデータ分析の実現まで、幅広い分野に及び、研究者、専門家、知識探求者がその恩恵を受けています。

現時点での最大の問題は、情報の動的な性質により、LLM が知識を常に更新する必要があることです。従来、微調整はこれらのモデルに新たな洞察を吹き込む方法として使用されてきました。開発者はドメイン固有のデータを使用して事前トレーニング済みのモデルを微調整し、最新の状態に保っています。絶えず変化する情報環境と LLM を同期させるには、組織や研究者による定期的な更新が不可欠だからです。しかし、微調整にはコストと時間がかかります。

この緊急のニーズに対応するために、Microsoft の研究者は画期的なアプローチである LoRAShear を導入しました。この革新的なアプローチは、LLM を簡素化するだけでなく、構造的知識の回復も促進します。アーキテクチャのプルーニングの中核は、ニューラル ネットワーク アーキテクチャ内の特定のコンポーネントを削除または削減して、効率、コンパクトさ、計算要件を最適化することです。

Microsoft の LoRAShear は、プログレッシブ構造化プルーニングをサポートするために LHSPG テクノロジを導入しています。このアプローチは、LoRA モジュール間で知識をシームレスに転送し、動的な知識回復ステージを統合します。微調整プロセスは事前トレーニングや指示の微調整に似ており、LLM が最新かつ関連性のある状態に保たれることを保証します。

LoRAShear は、特に LoRA モジュールのサポート範囲内で、依存関係グラフ分析を通じて一般的な LLM に拡張できます。採用されたアルゴリズムは、元の LLM および LoRA モジュールの依存関係グラフを作成します。さらに、LoRA モジュール情報を活用して重み更新中の知識の保存を強化する構造化スパース最適化アルゴリズムが導入されています。

この論文には、LoRA と反復構造化プルーニングを組み合わせて効率的なパラメータの微調整と直接的なハードウェア アクセラレーションを実現する、LoRAPrune と呼ばれる統合技術も記載されています。このメモリ節約アプローチは、プルーニング基準として LoRA の重みと勾配に完全に依存します。このプロセスには、追跡グラフの構築、圧縮するノードのグループの決定、トレーニング可能な変数の分割、そして最後にそれらを LLM に返すことが含まれます。

この論文では、オープンソースの LLAMAv1 に LoRAShear を実装することで、その有効性を実証しています。特に、LLAMAv1 を 20% 削減するとパフォーマンスの低下はわずか 1% ですが、モデルを 50% 削減すると評価ベンチマークで 82% のパフォーマンスが維持されます。

LoRAShear は人工知能の分野における大きな進歩を表しています。 LLM の使用方法が簡素化され、効率化されるだけでなく、重要な知識が確実に保持されます。 AI 駆動型アプリケーションは、コンピューティング リソースを最適化しながら、進化する情報環境に対応できるようになります。組織がデータ処理と知識検索に AI をますます活用するようになるにつれ、LoRAShear のようなソリューションが市場で重要な役割を果たし、効率性と知識の回復力を実現します。

論文アドレス: https://arxiv.org/abs/2310.18356

<<:  Amazon Web Services は、5 つのステップで企業の生成 AI の実現を支援します。

>>:  将来に影響を与える戦略的テクノロジートレンドトップ10

ブログ    
ブログ    
ブログ    

推薦する

FPSからRTSまで、ゲーム人工知能におけるディープラーニングアルゴリズムの概要記事

この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...

ロボットが人間のライフラインを守る、6つの大きなトレンドが無限の可能性を浮き彫りにする

最近、梅雨の到来により、わが国の多くの都市が洪水期に突入し、南部のほとんどの都市が激しい暴風雨、洪水...

ICLRは深層生成モデルに関する大きな議論を開催し、ウェリングとAAAIの百万ドル賞受賞者が来場する。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習ツールボックスには6つの重要なアルゴリズムが隠されています

1. 線形回帰フランスの数学者アドリアン・マリー・ルジャンドルは、彗星の将来の位置を予測することに常...

人工知能が学習と発達に及ぼす7つの影響

急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...

...

後から登場したが、最初に登場したテンセントのHunyuanモデルの技術的なハイライトは何ですか?

2023年の夏は終わったが、AIGCビッグモデルを巡る注目は衰える気配がない。過去 6 か月間、私...

...

9 トピック PyTorch での畳み込みニューラル ネットワーク (CNN) の実装

この写真をまだ覚えていますか?ディープシステムでは、52 個のオブジェクト検出モデルが導入されていま...

...

AIは英語のエッセイを添削できますか? IELTS、CET-4、CET-6の採点、コメント、エラー修正が必要です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データ分析と機械学習のための 11 の高度な視覚化

視覚化は、複雑なデータ パターンと関係性を直感的でわかりやすい方法で伝えるための強力なツールです。こ...

将来、仮想現実、人工知能、そして人体はどのように融合するのでしょうか?

仮想現実や人工知能などのテクノロジーが人体とどのように統合されるかを探ります。将来、仮想現実と現実の...

...

人工知能が都市景観をどう変えるのか

人工知能 (AI) とディープラーニングはあらゆるところに存在し、今や都市の景観を一変させる可能性を...