モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて優れた能力を発揮し、社会に大きな影響を与えてきました。ただし、これらの優れた機能には、膨大なトレーニング リソース (下の図の左を参照) と長い推論待ち時間 (下の図の右を参照) が必要になります。したがって、研究者は効率性の問題を解決するための効果的な技術的手段を開発する必要があります。

同時に、図の右側からは、最近人気のMistral-7Bなどの高効率LLMが、LLaMA1-33Bと同様の精度を確保しながら、推論メモリを大幅に削減し、推論レイテンシを短縮できることもわかります。いくつかの実現可能で効率的な手段がLLMの設計と展開にうまく適用されていることがわかります。

このレビューでは、オハイオ州立大学、インペリアル・カレッジ・ロンドン、ミシガン州立大学、ミシガン大学、Amazon、Google、Boson AI、Microsoft Research Asia の研究者が、効率的な LLM に関する研究の体系的かつ包括的な調査を提供します。 LLMの効率を最適化するための既存の技術を、モデル中心、データ中心、フレームワーク中心の3つのカテゴリに分類し、関連する最先端の技術をまとめ、議論しました。


  • 論文: https://arxiv.org/abs/2312.03863
  • GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

同時に、研究者らはレビューに関係する論文を整理するための GitHub リポジトリを設立し、このリポジトリを積極的に維持し、新しい研究が出てくるたびに継続的に更新していきます。このレビューが、研究者や実務家の方々が効率的な LLM の研究と開発について体系的に理解し、この重要かつ刺激的な分野に貢献するきっかけとなることを願っています。

リポジトリ URL: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

モデル中心

モデル中心のアプローチは、アルゴリズム レベルとシステム レベルの両方で効率的な手法に焦点を当てており、モデル自体に焦点が当てられています。 LLM には数十億、あるいは数兆ものパラメータがあり、より小規模なモデルと比較して創発性などの独自の特性があるため、LLM の効率を最適化するための新しい技術を開発する必要があります。この記事では、モデル圧縮、効率的な事前トレーニング、効率的な微調整、効率的な推論、効率的なモデルアーキテクチャ設計など、モデル中心の手法の 5 つのカテゴリについて詳しく説明します。

1. モデルの圧縮

モデル圧縮技術は、主に量子化、パラメータ刈り込み、低ランク推定、知識蒸留の4つのカテゴリに分けられます(下図参照)。量子化は、モデルの重みまたは活性化値を高精度から低精度に圧縮し、パラメータ刈り込みは、モデルの重みのより冗長な部分を検索して削除し、低ランク推定は、モデルの重み行列をいくつかの低ランクの小さな行列の積に変換し、知識蒸留は、大きなモデルを使用して小さなモデルを直接トレーニングし、特定のタスクを実行するときに小さなモデルが大きなモデルを置き換える機能を持つようにします。

2. 効率的な事前トレーニング

LLM の事前トレーニングは非常に高価です。効率的な事前トレーニングは、LLM の事前トレーニング プロセスの効率を向上させ、コストを削減することを目的としています。効率的な事前トレーニングは、混合精度アクセラレーション、モデルスケーリング、初期化テクノロジー、最適化戦略、システムレベルのアクセラレーションに分けられます。

混合精度アクセラレーションは、低精度の重みを使用して勾配、重み、およびアクティベーション値を計算し、それらを高精度に変換して元の重みを更新するために適用することで、事前トレーニングの効率を向上させます。モデルのスケーリングは、小さなモデルのパラメータを使用して大きなモデルにスケーリングすることで、事前トレーニングの収束を加速し、トレーニング コストを削減します。初期化技術は、モデルの初期値を設計することでモデルの収束を高速化します。最適化戦略は、モデル トレーニング中のメモリ消費を削減するための軽量オプティマイザーの設計に重点を置いています。システム レベルのアクセラレーションでは、分散テクノロジやその他のテクノロジを使用して、システム レベルからモデルの事前トレーニングを加速します。

3. 効率的な微調整

効率的な微調整は、LLM の微調整プロセスの効率を向上させることを目的としています。一般的な効率的な微調整手法は、パラメータ効率の高い微調整とメモリ効率の高い微調整の 2 つのカテゴリに分けられます。

パラメータ効率的な微調整 (PEFT) は、LLM バックボーン全体を固定し、追加のパラメータの小さなセットのみを更新することで、LLM を下流のタスクに適応させることを目的としています。本論文では、PEFT をさらにアダプタベースの微調整、低ランク適応、接頭辞の微調整、およびキューワードの微調整に分類しています。

メモリベースの効率的な微調整は、オプティマイザーの状態やアクティベーション値によって消費されるメモリの削減など、LLM 微調整プロセス全体でのメモリ消費の削減に重点を置いています。

4. 効率的な推論

効率的な推論は、LLM の推論プロセスの効率を向上させることを目的としています。研究者は、一般的な効率的な推論技術を、アルゴリズム レベルの推論加速とシステム レベルの推論加速の 2 つのカテゴリに分類しています。

アルゴリズム レベルでの推論の高速化は、投機的デコードと KV キャッシュ最適化の 2 つのカテゴリに分けられます。投機的デコードは、小さなスクラッチ モデルを使用してトークンを並列に計算し、より大きなターゲット モデルの投機的プレフィックスを作成することで、サンプリング プロセスを高速化します。 KV キャッシュの最適化とは、LLM の推論中にキーと値 (KV) のペアの繰り返し計算を最適化することを指します。

システムレベルの推論の高速化は、指定されたハードウェア上のメモリアクセス数を最適化し、アルゴリズムの並列処理量を増やすなどして、LLM 推論を高速化します。

5. 効率的なモデルアーキテクチャ設計

LLM の効率的なアーキテクチャ設計とは、モデル構造と計算プロセスを戦略的に最適化して、リソースの消費を最小限に抑えながらパフォーマンスとスケーラビリティを向上させることを指します。効率的なモデル アーキテクチャ設計は、モデルの種類に基づいて、効率的なアテンション モジュール、ハイブリッド エキスパート モデル、長いテキストの大規模モデル、トランスフォーマーを置き換えることができるアーキテクチャの 4 つのカテゴリに分類されます。

効率的なアテンション モジュールは、アテンション モジュールの複雑な計算とメモリ使用量を最適化することを目的としています。混合エキスパート モデル (MoE) は、LLM の特定のモジュールの推論決定を複数の小さなエキスパート モデルに置き換えることで、全体的なスパース性を実現します。長いテキストの大きなモデルは、超長いテキストを効率的に処理するために特別に設計された LLM です。代替トランスフォーマー アーキテクチャは、モデルの複雑さを軽減し、モデル アーキテクチャを再設計することで、ポスト トランスフォーマー アーキテクチャと同じ推論機能を実現します。

データ中心

データ中心のアプローチは、LLM の効率を向上させる上でのデータの品質と構造の役割に重点を置いています。この論文では、研究者らは、データ選択とキューワードエンジニアリングを含む 2 種類のデータ中心の方法について詳細に議論しています。

1. データの選択

LLM のデータ選択は、トレーニング プロセスを高速化するために、冗長データや無効なデータを削除するなど、事前トレーニング/微調整データをクリーンアップして選択することを目的としています。

2. プロンプトワードエンジニアリング

プロンプトワードエンジニアリングは、効果的な入力(プロンプトワード)を設計することで、LLM が望ましい出力を生成するように導きます。プロンプトワードを設計することで、モデルのパフォーマンスを面倒な微調整後と同等にすることができるという効率性があります。研究者たちは、一般的なキューワードエンジニアリング手法を、少数サンプルのキューワードエンジニアリング、キューワード圧縮、キューワード生成の 3 つのカテゴリに分類しました。

少数ショットのキュー エンジニアリングは、実行されるタスクの理解を導くための限られた一連の例を LLM に提供します。ヒント圧縮は、長いヒント入力や学習を圧縮し、ヒント表現を使用することで、LLM による入力の処理を高速化します。キューワード生成は、手動で注釈を付けられたデータを使用するのではなく、モデルが特定の関連性の高い応答を生成するようにガイドする効果的なプロンプトを自動的に作成することを目的としています。

フレームワーク中心

研究者らは最近、人気があり効率的な LLM フレームワークを調査し、事前トレーニング、微調整、推論など、最適化できる効率的なタスクをリストアップしました (下の図を参照)。

要約する

この調査では、研究者らが効果的な LLM の体系的なレビューを提供しており、これは LLM の民主化を目的とした重要な研究分野です。まず、効率的な LLM がなぜ必要なのかを説明します。この論文では、秩序だったフレームワークの中で、モデル中心、データ中心、フレームワーク中心の観点から、LLM のアルゴリズムレベルとシステムレベルの両方で効率的な手法を調査します。

研究者たちは、LLM および LLM 指向のシステムでは効率性がますます重要な役割を果たすようになると考えています。彼らは、この調査が研究者や実務家がこの分野に早く参入するのに役立ち、効果的な LLM に関する新たな研究を刺激するきっかけとなることを期待しています。

<<: 

>>:  追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

ブログ    

推薦する

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

...

危険な環境を恐れず、人工知能配信ネットワークライブ操作ロボットが重い責任を勇敢に引き受けます

現在、産業、農業、住民の電力消費は急速に増加しており、風力発電、水力発電などの電源が電力供給の主な手...

[ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

データと製品を組み合わせるトピック 1 は、データと製品の組み合わせです。Stitch Fix を例...

「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える

天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...

これがあれば、母は私が授業をさぼったり、空想にふけったり、携帯電話で遊んだりすることを心配する必要がなくなります...

最近、中国薬科大学は試験的に教室に顔認識システムを導入しました。学生の出席を自動的に識別するだけでな...

ヘルスケアにおける人工知能の応用

今年に入ってから、医療提供方法や患者がより積極的に医療に参加できる方法を変革するために AI を使用...

最先端の洞察 | ドローン配達が紛失しない理由はここにあります!

Frontier Insights の今号では、ドローンが商品を配送する際に進路を見つけやすくする...

人工知能やその他の科学研究には「越えてはならない一線」があり、5つの原則が倫理的な最低ラインを示している

人工知能の覚醒、個人ネットワークの情報セキュリティ、遺伝子編集...科学技術が急速に発展するにつれ、...

AI、ブロックチェーン、ロボット:テクノロジーは仕事の未来をどのように変えるのでしょうか?

編集者注:人工知能、ブロックチェーン、ロボットなどの破壊的な新技術が継続的に発展する中、人々はそれら...

...

ChatGPT「おばあちゃんの抜け穴」がまた人気です!亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます

最近、有名なChatGPT「おばあちゃんの脆弱性」が再び人気になっています!この伝説の「Granny...

...

コンテストを利用して学習を促進し、エコシステムを共同で構築し、人工知能を普及させましょう。

[元記事は51CTO.comより] 2021年7月12日、上海紫竹コートヤードホテルで、神府改革革...