1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキストウィンドウを処理する LLM (大規模言語モデル) の能力も重要な評価指標になりました。

たとえば、OpenAI の gpt-3.5-turbo は 16k トークンのコンテキストウィンドウオプションを提供し、AnthropicAI は Claude のトークン処理能力を 100k に増加しました。大規模モデル処理コンテキストウィンドウの概念とは何でしょうか? GPT-4 を例に挙げてみましょう。32k トークンをサポートしており、これは 50 ページのテキストに相当します。つまり、会話やテキスト生成を行う際に、GPT-4 は最大約 50 ページのコンテンツを記憶できます。

一般的に、大規模な言語モデルがコンテキストウィンドウのサイズを処理する能力は事前に決定されています。たとえば、Meta AI がリリースした LLaMA モデルでは、入力トークンのサイズが 2048 未満である必要があります。

ただし、長時間の会話、長い文書の要約、長期計画の実行などのアプリケーションでは、事前に設定されたコンテキストウィンドウの制限を超えることが多いため、より長いコンテキストウィンドウを処理できる LLM の方が人気があります。

しかし、これによって新たな問題が発生します。より長いコンテキストウィンドウを持つ LLM を最初からトレーニングするには、多大な投資が必要になります。当然、次のような疑問が生じます。既存の事前トレーニング済み LLM のコンテキストウィンドウを拡張できるでしょうか?

最も簡単な方法は、既存の事前トレーニング済み Transformer を微調整して、より長いコンテキストウィンドウを取得することです。しかし、経験的な結果によれば、このようにトレーニングされたモデルは長いコンテキストウィンドウに非常にゆっくりと適応することがわかります。 10,000 バッチのトレーニング後も、有効なコンテキストウィンドウの増加は依然として非常に小さく、2048 から 2560 にしか増加していません (実験セクションの表 4 を参照)。これは、このアプローチがより長いコンテキストウィンドウにスケーリングするには非効率的であることを示しています。

この論文では、Meta の研究者が位置補間 (PI)を導入し、いくつかの既存の事前トレーニング済み LLM (LLaMA を含む) のコンテキストウィンドウを拡張しました。結果は、1000 ステップ未満の微調整で LLaMA コンテキストウィンドウを 2k から 32k に拡張できることを示しています。

写真

論文アドレス: https://arxiv.org/pdf/2306.15595.pdf

この研究の重要なアイデアは、外挿を実行するのではなく、事前トレーニング段階で最大位置インデックスがコンテキストウィンドウの制限と一致するように位置インデックスを直接縮小することです。言い換えれば、より多くの入力トークンに対応するために、位置エンコーディングを隣接する整数位置にわたって補間します。位置エンコーディングは非整数位置に適用できるという事実を活用しますが、トレーニング済みの位置を超えて外挿すると、悲惨な値につながる可能性があります。

PI アプローチは、最小限の微調整 (1000 ステップ以内) で RoPE ベースの事前トレーニング済み LLM (LLaMA など) のコンテキストウィンドウサイズを最大 32768 まで拡張し、検索、言語モデル化、LLaMA 7B から 65B までの長いドキュメントの要約など、長いコンテキストを必要とするさまざまなタスクで優れたパフォーマンスを発揮します。一方、PI によって拡張されたモデルは、元のコンテキストウィンドウ内で比較的良好な品質を維持します。

方法

RoPE は、LLaMA、ChatGLM-6B、PaLM など、私たちがよく知っている大規模な言語モデルに存在します。この方法は、Zhuiyi Technology の Su Jianlin らによって提案されました。RoPE は、絶対エンコーディングを通じて相対位置エンコーディングを実現します。

RoPE の注目スコアは相対的な位置にのみ依存しますが、その外挿パフォーマンスは良くありません。特に、より大きなコンテキストウィンドウに直接拡張すると、困惑度は非常に高い数値 (つまり、10^3 超) にまで急上昇する可能性があります。

本論文では位置補間法を採用しており、以下のように外挿法と比較する。基底関数 ϕ_j の滑らかさにより、補間はより安定し、外れ値が発生することはありません。

写真

この研究では、RoPE fをf′に置き換えて次の式を得ました。

写真

この研究では、位置エンコーディングの変換を位置補間と呼んでいます。このステップでは、RoPEを計算する前に、位置インデックスを[0, L′)から[0, L)に減らして、元のインデックス範囲と一致させます。したがって、RoPEの入力として、任意の2つのトークン間の最大相対距離はL′からLに短縮されました。拡大前後の位置インデックスと相対距離の範囲を揃えることで、コンテキストウィンドウの拡大による注目度スコアの計算への影響が軽減され、モデルの適応が容易になります。

再スケーリング位置インデックス法では追加の重みが導入されず、モデルアーキテクチャがまったく変更されないことに注意してください。

実験

この研究では、位置補間によってコンテキストウィンドウを効果的に元のサイズの 32 倍に拡張できることが示されており、この拡張はわずか数百のトレーニングステップで実現できます。

表 1 と表 2 は、PG-19 と Arxiv Math Proof-pile データセットにおける PI モデルとベースラインモデルの困惑度を報告しています。結果は、PI メソッドで拡張されたモデルにより、コンテキストウィンドウサイズが長い場合の困惑度が大幅に改善されることを示しています。

表 3 は、PG19 データセットで PI メソッドを使用して LLaMA 7B モデルをコンテキストウィンドウサイズ 8192 および 16384 にスケーリングするための、パープレキシティと微調整ステップ数の関係を示しています。

結果は、微調整なし（ステップ数が 0）で、コンテキストウィンドウが 8192 に拡張されたときにパープレキシティが 20 未満になるなど、モデルが特定の言語モデリング機能を発揮できることを示しています（対照的に、直接外挿法のパープレキシティは 10^3 を超えます）。 200 ステップでは、モデルのパープレキシティがコンテキストウィンドウサイズ 2048 での元のモデルのパープレキシティを超えており、モデルが事前トレーニング設定よりも長いシーケンスを言語モデリングに効果的に利用できることを示しています。 1000 ステップでは、モデルが着実に改善され、より優れた困惑度を達成していることがわかります。

写真

以下の表は、PI によってスケーリングされたモデルがすべて、有効なコンテキストウィンドウサイズに関してスケーリング目標を正常に達成していることを示しています。つまり、有効なコンテキストウィンドウサイズは、わずか 200 ステップの微調整後に最大値に達し、7B および 33B のモデルサイズと最大 32768 のコンテキストウィンドウまで一貫しています。対照的に、直接微調整によって拡張された LLaMA モデルの有効なコンテキストウィンドウサイズは 2048 から 2560 にしか増加せず、10,000 ステップを超える微調整を行った後でもウィンドウサイズの増加が加速する明確な兆候は見られません。

写真

表 5 は、8192 にスケールされたモデルが、より小さなコンテキストウィンドウ用に設計された元のベンチマークタスクで同等の結果を生成し、7B および 33B のモデルサイズのベンチマークタスクで最大 2% の劣化が生じることを示しています。

写真

表 6 は、16384 のコンテキストウィンドウを持つ PI モデルが長いテキストの要約タスクを効果的に処理できることを示しています。

写真

<<: Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

>>: インテリジェント運転システムの欠陥解決策の詳細な分析