LoRAShear: LLM プルーニングと知識回復に関する Microsoft の最新研究

LoRAShear: LLM プルーニングと知識回復に関する Microsoft の最新研究

LoRAShear は、言語モデリング (LLM) を最適化し、知識を保存するために Microsoft が開発した新しいアプローチです。構造的なプルーニングが可能になり、計算要件が削減され、効率が向上します。

LHSPG テクノロジー (Lora Half-Space Projected Gradient) は、漸進的な構造化プルーニングと動的な知識回復をサポートします。依存グラフ分析とスパース最適化を通じて、さまざまな LLM に適用できます。

LoRAPrune は、LoRA と反復的な構造化プルーニングを組み合わせて、効率的なパラメータの微調整を実現します。 LLAMA v1 の実装では、大規模なプルーニングを行っても同等のパフォーマンスが維持されます。

進化する人工知能の分野では、言語モデリング (LLM) は、大量のテキスト データを処理し、関連情報をすばやく取得し、知識へのアクセス性を高めるための重要なツールとなっています。その影響は広範囲に及び、検索エンジンや質問応答システムの強化からデータ分析の実現まで、幅広い分野に及び、研究者、専門家、知識探求者がその恩恵を受けています。

現時点での最大の問題は、情報の動的な性質により、LLM が知識を常に更新する必要があることです。従来、微調整はこれらのモデルに新たな洞察を吹き込む方法として使用されてきました。開発者はドメイン固有のデータを使用して事前トレーニング済みのモデルを微調整し、最新の状態に保っています。絶えず変化する情報環境と LLM を同期させるには、組織や研究者による定期的な更新が不可欠だからです。しかし、微調整にはコストと時間がかかります。

この緊急のニーズに対応するために、Microsoft の研究者は画期的なアプローチである LoRAShear を導入しました。この革新的なアプローチは、LLM を簡素化するだけでなく、構造的知識の回復も促進します。アーキテクチャのプルーニングの中核は、ニューラル ネットワーク アーキテクチャ内の特定のコンポーネントを削除または削減して、効率、コンパクトさ、計算要件を最適化することです。

Microsoft の LoRAShear は、プログレッシブ構造化プルーニングをサポートするために LHSPG テクノロジを導入しています。このアプローチは、LoRA モジュール間で知識をシームレスに転送し、動的な知識回復ステージを統合します。微調整プロセスは事前トレーニングや指示の微調整に似ており、LLM が最新かつ関連性のある状態に保たれることを保証します。

LoRAShear は、特に LoRA モジュールのサポート範囲内で、依存関係グラフ分析を通じて一般的な LLM に拡張できます。採用されたアルゴリズムは、元の LLM および LoRA モジュールの依存関係グラフを作成します。さらに、LoRA モジュール情報を活用して重み更新中の知識の保存を強化する構造化スパース最適化アルゴリズムが導入されています。

この論文には、LoRA と反復構造化プルーニングを組み合わせて効率的なパラメータの微調整と直接的なハードウェア アクセラレーションを実現する、LoRAPrune と呼ばれる統合技術も記載されています。このメモリ節約アプローチは、プルーニング基準として LoRA の重みと勾配に完全に依存します。このプロセスには、追跡グラフの構築、圧縮するノードのグループの決定、トレーニング可能な変数の分割、そして最後にそれらを LLM に返すことが含まれます。

この論文では、オープンソースの LLAMAv1 に LoRAShear を実装することで、その有効性を実証しています。特に、LLAMAv1 を 20% 削減するとパフォーマンスの低下はわずか 1% ですが、モデルを 50% 削減すると評価ベンチマークで 82% のパフォーマンスが維持されます。

LoRAShear は人工知能の分野における大きな進歩を表しています。 LLM の使用方法が簡素化され、効率化されるだけでなく、重要な知識が確実に保持されます。 AI 駆動型アプリケーションは、コンピューティング リソースを最適化しながら、進化する情報環境に対応できるようになります。組織がデータ処理と知識検索に AI をますます活用するようになるにつれ、LoRAShear のようなソリューションが市場で重要な役割を果たし、効率性と知識の回復力を実現します。

論文アドレス: https://arxiv.org/abs/2310.18356

<<:  Amazon Web Services は、5 つのステップで企業の生成 AI の実現を支援します。

>>:  将来に影響を与える戦略的テクノロジートレンドトップ10

ブログ    
ブログ    
ブログ    

推薦する

人工知能の便利な日常的な活用例8つ

「人工知能」という用語を Google で検索して、何らかの形でこの記事にたどり着いた場合、または ...

...

人工知能への恐怖現象を探る

現在、人工知能は人類に大きな発展の機会をもたらす一方で、さまざまなリスクや課題も伴っています。科学技...

MITの新しい水中ロボット!機械学習を使用して 18 時間でパトリック スターを作成する (ダニエラ ラスとの共著)

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げて...

MOEA Framework 1.9は、MOEAアルゴリズムを開発するためのJavaクラスライブラリをリリースしました。

MOEA フレームワークは、多目的進化アルゴリズム (MOEA) を開発するための Java ライ...

機械学習の実践者が直面する8つの大きな課題

機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。...

プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

[[427319]] 01 データデータは、携帯電話に残すデジタルフットプリントから健康記録、買い物...

...

北京大学とテンセントは、デザイナーと同じくらいクリエイティブなテキストロゴ生成モデルを提案した。

テキスト ロゴのデザインはデザイナーの創造性と経験に大きく依存しますが、その中でも各テキスト要素のレ...

AIエンジニアの成長ストーリー~働き方編~

[[409282]]この記事では、特に仕事の方法について取り上げます。エンジニアの中には非常に頭の...

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC など...