1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する LLM (大規模言語モデル) の能力も重要な評価指標になりました。

たとえば、OpenAI の gpt-3.5-turbo は 16k トークンのコンテキスト ウィンドウ オプションを提供し、AnthropicAI は Claude のトークン処理能力を 100k に増加しました。大規模モデル処理コンテキスト ウィンドウの概念とは何でしょうか? GPT-4 を例に挙げてみましょう。32k トークンをサポートしており、これは 50 ページのテキストに相当します。つまり、会話やテキスト生成を行う際に、GPT-4 は最大約 50 ページのコンテンツを記憶できます。

一般的に、大規模な言語モデルがコンテキスト ウィンドウのサイズを処理する能力は事前に決定されています。たとえば、Meta AI がリリースした LLaMA モデルでは、入力トークンのサイズが 2048 未満である必要があります。

ただし、長時間の会話、長い文書の要約、長期計画の実行などのアプリケーションでは、事前に設定されたコンテキスト ウィンドウの制限を超えることが多いため、より長いコンテキスト ウィンドウを処理できる LLM の方が人気があります。

しかし、これによって新たな問題が発生します。より長いコンテキスト ウィンドウを持つ LLM を最初からトレーニングするには、多大な投資が必要になります。当然、次のような疑問が生じます。既存の事前トレーニング済み LLM のコンテキスト ウィンドウを拡張できるでしょうか?

最も簡単な方法は、既存の事前トレーニング済み Transformer を微調整して、より長いコンテキスト ウィンドウを取得することです。しかし、経験的な結果によれば、このようにトレーニングされたモデルは長いコンテキスト ウィンドウに非常にゆっくりと適応することがわかります。 10,000 バッチのトレーニング後も、有効なコンテキスト ウィンドウの増加は依然として非常に小さく、2048 から 2560 にしか増加していません (実験セクションの表 4 を参照)。これは、このアプローチがより長いコンテキスト ウィンドウにスケーリングするには非効率的であることを示しています。

この論文では、Meta の研究者が位置補間 (PI)を導入し、いくつかの既存の事前トレーニング済み LLM (LLaMA を含む) のコンテキスト ウィンドウを拡張しました。結果は、1000 ステップ未満の微調整で LLaMA コンテキスト ウィンドウを 2k から 32k に拡張できることを示しています。

写真

論文アドレス: https://arxiv.org/pdf/2306.15595.pdf

この研究の重要なアイデアは、外挿を実行するのではなく、事前トレーニング段階で最大位置インデックスがコンテキストウィンドウの制限と一致するように位置インデックスを直接縮小することです。言い換えれば、より多くの入力トークンに対応するために、位置エンコーディングを隣接する整数位置にわたって補間します。位置エンコーディングは非整数位置に適用できるという事実を活用しますが、トレーニング済みの位置を超えて外挿すると、悲惨な値につながる可能性があります。

PI アプローチは、最小限の微調整 (1000 ステップ以内) で RoPE ベースの事前トレーニング済み LLM (LLaMA など) のコンテキスト ウィンドウ サイズを最大 32768 まで拡張し、検索、言語モデル化、LLaMA 7B から 65B までの長いドキュメントの要約など、長いコンテキストを必要とするさまざまなタスクで優れたパフォーマンスを発揮します。一方、PI によって拡張されたモデルは、元のコンテキスト ウィンドウ内で比較的良好な品質を維持します。

方法

RoPE は、LLaMA、ChatGLM-6B、PaLM など、私たちがよく知っている大規模な言語モデルに存在します。この方法は、Zhuiyi Technology の Su Jianlin らによって提案されました。RoPE は、絶対エンコーディングを通じて相対位置エンコーディングを実現します。

RoPE の注目スコアは相対的な位置にのみ依存しますが、その外挿パフォーマンスは良くありません。特に、より大きなコンテキスト ウィンドウに直接拡張すると、困惑度は非常に高い数値 (つまり、10^3 超) にまで急上昇する可能性があります。

本論文では位置補間法を採用しており、以下のように外挿法と比較する。基底関数 ϕ_j の滑らかさにより、補間はより安定し、外れ値が発生することはありません。

写真

この研究では、RoPE fをf′に置き換えて次の式を得ました。

写真

この研究では、位置エンコーディングの変換を位置補間と呼んでいます。このステップでは、RoPEを計算する前に、位置インデックスを[0, L′)から[0, L)に減らして、元のインデックス範囲と一致させます。したがって、RoPEの入力として、任意の2つのトークン間の最大相対距離はL′からLに短縮されました。拡大前後の位置インデックスと相対距離の範囲を揃えることで、コンテキストウィンドウの拡大による注目度スコアの計算への影響が軽減され、モデルの適応が容易になります。

再スケーリング位置インデックス法では追加の重みが導入されず、モデル アーキテクチャがまったく変更されないことに注意してください。

実験

この研究では、位置補間によってコンテキスト ウィンドウを効果的に元のサイズの 32 倍に拡張できることが示されており、この拡張はわずか数百のトレーニング ステップで実現できます。

表 1 と表 2 は、PG-19 と Arxiv Math Proof-pile データセットにおける PI モデルとベースライン モデルの困惑度を報告しています。結果は、PI メソッドで拡張されたモデルにより、コンテキスト ウィンドウ サイズが長い場合の困惑度が大幅に改善されることを示しています。

表 3 は、PG19 データセットで PI メソッドを使用して LLaMA 7B モデルをコンテキスト ウィンドウ サイズ 8192 および 16384 にスケーリングするための、パープレキシティと微調整ステップ数の関係を示しています。

結果は、微調整なし(ステップ数が 0)で、コンテキスト ウィンドウが 8192 に拡張されたときにパープレキシティが 20 未満になるなど、モデルが特定の言語モデリング機能を発揮できることを示しています(対照的に、直接外挿法のパープレキシティは 10^3 を超えます)。 200 ステップでは、モデルのパープレキシティがコンテキスト ウィンドウ サイズ 2048 での元のモデルのパープレキシティを超えており、モデルが事前トレーニング設定よりも長いシーケンスを言語モデリングに効果的に利用できることを示しています。 1000 ステップでは、モデルが着実に改善され、より優れた困惑度を達成していることがわかります。

写真

以下の表は、PI によってスケーリングされたモデルがすべて、有効なコンテキスト ウィンドウ サイズに関してスケーリング目標を正常に達成していることを示しています。つまり、有効なコンテキスト ウィンドウ サイズは、わずか 200 ステップの微調整後に最大値に達し、7B および 33B のモデル サイズと最大 32768 のコンテキスト ウィンドウまで一貫しています。対照的に、直接微調整によって拡張された LLaMA モデルの有効なコンテキスト ウィンドウ サイズは 2048 から 2560 にしか増加せず、10,000 ステップを超える微調整を行った後でもウィンドウ サイズの増加が加速する明確な兆候は見られません。

写真

表 5 は、8192 にスケールされたモデルが、より小さなコンテキスト ウィンドウ用に設計された元のベンチマーク タスクで同等の結果を生成し、7B および 33B のモデル サイズのベンチマーク タスクで最大 2% の劣化が生じることを示しています。

写真

表 6 は、16384 のコンテキスト ウィンドウを持つ PI モデルが長いテキストの要約タスクを効果的に処理できることを示しています。

写真

<<:  Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

>>:  インテリジェント運転システムの欠陥解決策の詳細な分析

ブログ    
ブログ    
ブログ    

推薦する

単一の GPU のみを使用して 7B モデルを微調整します。ユニバーサルマルチモーダルツール LLaMA-Adapter は閾値を取り除き、その効果は驚くべきものです

LLaMA アダプタが完全にロック解除されました。一般的なマルチモーダル ベース モデルとして、画像...

アルゴリズミア:人工知能は2021年に主流になる

1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...

...

...

...

アルゴリズム実装からMiniFlow実装まで、機械学習のためのインフラプラットフォームを構築

ビッグデータ、クラウドコンピューティング、ディープラーニングと比較すると、インフラストラクチャはあま...

写真にピクセルレベルの透かしをひっそり追加: AI による芸術作品の「盗作」を防ぐ方法が発見されました

オープンソースのAI画像生成モデル「Stable Diffusion」のリリース以来、デジタルアート...

人工知能と機械学習がスタートアップに与える影響

人工知能 (AI) と機械学習 (ML) は、スタートアップを含む複数の業界に革命をもたらしました。...

あなたの顔データはどこに保存されますか?

AI顔変換ソフト「ZAO」やMegviiのキャンパス顔認識をめぐる論争に続き、17万件の顔データが...

AI バイアスは、偏見のない視点を必要とする未解決の問題でしょうか?

[[418851]] [51CTO.com クイック翻訳]非常に複雑な技術的アプリケーションで A...

GPT 1周年深夜の雑談: プログラミングなしで誰もが GPT を定義できる時代が到来!

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)深...

YouTube 動画推奨アルゴリズムを破る方法

[[176814]]映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワー...

...