1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する LLM (大規模言語モデル) の能力も重要な評価指標になりました。

たとえば、OpenAI の gpt-3.5-turbo は 16k トークンのコンテキスト ウィンドウ オプションを提供し、AnthropicAI は Claude のトークン処理能力を 100k に増加しました。大規模モデル処理コンテキスト ウィンドウの概念とは何でしょうか? GPT-4 を例に挙げてみましょう。32k トークンをサポートしており、これは 50 ページのテキストに相当します。つまり、会話やテキスト生成を行う際に、GPT-4 は最大約 50 ページのコンテンツを記憶できます。

一般的に、大規模な言語モデルがコンテキスト ウィンドウのサイズを処理する能力は事前に決定されています。たとえば、Meta AI がリリースした LLaMA モデルでは、入力トークンのサイズが 2048 未満である必要があります。

ただし、長時間の会話、長い文書の要約、長期計画の実行などのアプリケーションでは、事前に設定されたコンテキスト ウィンドウの制限を超えることが多いため、より長いコンテキスト ウィンドウを処理できる LLM の方が人気があります。

しかし、これによって新たな問題が発生します。より長いコンテキスト ウィンドウを持つ LLM を最初からトレーニングするには、多大な投資が必要になります。当然、次のような疑問が生じます。既存の事前トレーニング済み LLM のコンテキスト ウィンドウを拡張できるでしょうか?

最も簡単な方法は、既存の事前トレーニング済み Transformer を微調整して、より長いコンテキスト ウィンドウを取得することです。しかし、経験的な結果によれば、このようにトレーニングされたモデルは長いコンテキスト ウィンドウに非常にゆっくりと適応することがわかります。 10,000 バッチのトレーニング後も、有効なコンテキスト ウィンドウの増加は依然として非常に小さく、2048 から 2560 にしか増加していません (実験セクションの表 4 を参照)。これは、このアプローチがより長いコンテキスト ウィンドウにスケーリングするには非効率的であることを示しています。

この論文では、Meta の研究者が位置補間 (PI)を導入し、いくつかの既存の事前トレーニング済み LLM (LLaMA を含む) のコンテキスト ウィンドウを拡張しました。結果は、1000 ステップ未満の微調整で LLaMA コンテキスト ウィンドウを 2k から 32k に拡張できることを示しています。

写真

論文アドレス: https://arxiv.org/pdf/2306.15595.pdf

この研究の重要なアイデアは、外挿を実行するのではなく、事前トレーニング段階で最大位置インデックスがコンテキストウィンドウの制限と一致するように位置インデックスを直接縮小することです。言い換えれば、より多くの入力トークンに対応するために、位置エンコーディングを隣接する整数位置にわたって補間します。位置エンコーディングは非整数位置に適用できるという事実を活用しますが、トレーニング済みの位置を超えて外挿すると、悲惨な値につながる可能性があります。

PI アプローチは、最小限の微調整 (1000 ステップ以内) で RoPE ベースの事前トレーニング済み LLM (LLaMA など) のコンテキスト ウィンドウ サイズを最大 32768 まで拡張し、検索、言語モデル化、LLaMA 7B から 65B までの長いドキュメントの要約など、長いコンテキストを必要とするさまざまなタスクで優れたパフォーマンスを発揮します。一方、PI によって拡張されたモデルは、元のコンテキスト ウィンドウ内で比較的良好な品質を維持します。

方法

RoPE は、LLaMA、ChatGLM-6B、PaLM など、私たちがよく知っている大規模な言語モデルに存在します。この方法は、Zhuiyi Technology の Su Jianlin らによって提案されました。RoPE は、絶対エンコーディングを通じて相対位置エンコーディングを実現します。

RoPE の注目スコアは相対的な位置にのみ依存しますが、その外挿パフォーマンスは良くありません。特に、より大きなコンテキスト ウィンドウに直接拡張すると、困惑度は非常に高い数値 (つまり、10^3 超) にまで急上昇する可能性があります。

本論文では位置補間法を採用しており、以下のように外挿法と比較する。基底関数 ϕ_j の滑らかさにより、補間はより安定し、外れ値が発生することはありません。

写真

この研究では、RoPE fをf′に置き換えて次の式を得ました。

写真

この研究では、位置エンコーディングの変換を位置補間と呼んでいます。このステップでは、RoPEを計算する前に、位置インデックスを[0, L′)から[0, L)に減らして、元のインデックス範囲と一致させます。したがって、RoPEの入力として、任意の2つのトークン間の最大相対距離はL′からLに短縮されました。拡大前後の位置インデックスと相対距離の範囲を揃えることで、コンテキストウィンドウの拡大による注目度スコアの計算への影響が軽減され、モデルの適応が容易になります。

再スケーリング位置インデックス法では追加の重みが導入されず、モデル アーキテクチャがまったく変更されないことに注意してください。

実験

この研究では、位置補間によってコンテキスト ウィンドウを効果的に元のサイズの 32 倍に拡張できることが示されており、この拡張はわずか数百のトレーニング ステップで実現できます。

表 1 と表 2 は、PG-19 と Arxiv Math Proof-pile データセットにおける PI モデルとベースライン モデルの困惑度を報告しています。結果は、PI メソッドで拡張されたモデルにより、コンテキスト ウィンドウ サイズが長い場合の困惑度が大幅に改善されることを示しています。

表 3 は、PG19 データセットで PI メソッドを使用して LLaMA 7B モデルをコンテキスト ウィンドウ サイズ 8192 および 16384 にスケーリングするための、パープレキシティと微調整ステップ数の関係を示しています。

結果は、微調整なし(ステップ数が 0)で、コンテキスト ウィンドウが 8192 に拡張されたときにパープレキシティが 20 未満になるなど、モデルが特定の言語モデリング機能を発揮できることを示しています(対照的に、直接外挿法のパープレキシティは 10^3 を超えます)。 200 ステップでは、モデルのパープレキシティがコンテキスト ウィンドウ サイズ 2048 での元のモデルのパープレキシティを超えており、モデルが事前トレーニング設定よりも長いシーケンスを言語モデリングに効果的に利用できることを示しています。 1000 ステップでは、モデルが着実に改善され、より優れた困惑度を達成していることがわかります。

写真

以下の表は、PI によってスケーリングされたモデルがすべて、有効なコンテキスト ウィンドウ サイズに関してスケーリング目標を正常に達成していることを示しています。つまり、有効なコンテキスト ウィンドウ サイズは、わずか 200 ステップの微調整後に最大値に達し、7B および 33B のモデル サイズと最大 32768 のコンテキスト ウィンドウまで一貫しています。対照的に、直接微調整によって拡張された LLaMA モデルの有効なコンテキスト ウィンドウ サイズは 2048 から 2560 にしか増加せず、10,000 ステップを超える微調整を行った後でもウィンドウ サイズの増加が加速する明確な兆候は見られません。

写真

表 5 は、8192 にスケールされたモデルが、より小さなコンテキスト ウィンドウ用に設計された元のベンチマーク タスクで同等の結果を生成し、7B および 33B のモデル サイズのベンチマーク タスクで最大 2% の劣化が生じることを示しています。

写真

表 6 は、16384 のコンテキスト ウィンドウを持つ PI モデルが長いテキストの要約タスクを効果的に処理できることを示しています。

写真

<<:  Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

>>:  インテリジェント運転システムの欠陥解決策の詳細な分析

ブログ    

推薦する

...

ディープラーニング以外に機械翻訳には何が必要ですか?

[[200675]]視聴者が足りないなら、噂話で十分だまずは噂話から始めましょう。この記事を書き始...

AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある

[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...

建物をスマートかつ持続可能なものに変える重要性

[[428632]]温室効果ガス削減目標と規制要件を満たすには、企業は施設をエネルギー効率の高いスマ...

例 | CNN と Python を使用した肺炎検出

導入こんにちは!数時間前にディープラーニング プロジェクトを終えたので、その成果を共有したいと思いま...

AI時代なのに、まだビッグデータが分からない?

[[322803]]近年、IT 業界でどの技術方向が最もホットであるかと聞かれれば、それは ABC...

...

3400 コミ​​ットを統合します。バッチサイズの選択に役立つフレームワーク、PyTorch 1.10 がリリースされました

[[431318]] 10月21日の夜、ついにPyTorch 1.10がリリースされました!このアッ...

責任ある AI 導入: IT 共生の青写真

AI ツールが合法化され、職場に導入されるようになると、人々は当然、その使用例や AI ツールに依存...

正義がアルゴリズムを採用したとき、最後に笑うのは正義か、それともテクノロジーか?

2017年4月11日、米国のロバーツ最高裁判所長官は、ニューヨークのレンセラー工科大学の学長との会...

機械学習は簡単になっていますが、ソフトウェアエンジニアリングはまだ難しいです

これはレビュー記事です。 それは偏りもあります。 スペシャリストではなく、物事を作ったり問題を解決し...

主流のブロックチェーンコンセンサスアルゴリズムの包括的なガイド

あらゆる優れた暗号通貨の背後には、優れたコンセンサス アルゴリズムが存在します。完璧なコンセンサス ...

Googleの新しい研究により、ロボット犬が速歩することが可能になった

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

C# アルゴリズムが張さんの誕生日問題を解決する

C# アルゴリズムは張さんの誕生日問題をどのように実装するのでしょうか?まず、張さんの誕生日に関する...

「本物の人間かどうか」を検証、AIが人間を攻撃! GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

あなたは実在の人物ですか? Web ページを開いて奇妙な確認コードが表示されるたびに、それをクリック...