注意メカニズムに依存する大規模言語モデル (LLM) は通常、トレーニング中に固定のコンテキスト長を使用します。これにより、モデルが処理できる入力シーケンスの長さに上限が設定されます。そのため、文脈の「長さの外挿」手法を探求する研究は数多くあります。 コンテキスト長の外挿とは、より短いコンテキスト長でトレーニングされた LLM を使用し、より長いコンテキスト長でさらにトレーニングすることなく、より長いコンテキスト長で評価することを指します。その中でも、ほとんどの研究は注意機構における位置符号化システムの変更に焦点を当てています。 現在、Abacus.AI の研究チームは、LLaMA または LLaMA 2 モデルに基づく既存のコンテキスト長外挿法について広範な調査を実施し、新しい切り捨て戦略を提案しました。
この切り捨て戦略の有効性を検証するために、この研究では 3 つの新しい 13B パラメータの長いコンテキスト モデルをリリースしました。Giraffe には、LLaMA-13B に基づいてトレーニングされた 2 つのモデル (コンテキスト長はそれぞれ 4k と 16k) と、LLaMA2-13B に基づいてトレーニングされた 1 つのモデル (コンテキスト長は 32k) が含まれています。このモデルは、LLaMA2 に基づく 32k コンテキスト ウィンドウを備えた最初のオープン ソース LLM でもあります。 Abacus.AIのCEOであるBindu Reddy氏がTwitterで紹介した。 32k コンテキスト ウィンドウの概念とは何ですか?これは約 24,000 語であり、オープンソース モデル Giraffe は 20,000 語の長い記事を処理できることを意味します。 画像出典: https://twitter.com/akshay_pachaar/status/1694326174158143619 方法の紹介コンテキストの長さが増加すると、LLM アーキテクチャのアテンション メカニズムによってメモリ使用量と計算が 2 乗的に増加するため、長さの外挿法が重要になります。 この研究では、現在有効なコンテキスト長外挿法のいくつかをまとめ、線形スケーリング、xPos、ランダム位置エンコーディングなど、どの方法が最も効果的かを判断するために包括的なテストを実施しました。さらに、研究チームはいくつかの新しい方法も提案しており、そのうちの1つである「切り捨て」はテストに非常に効果的でした。 まず、LLM のパフォーマンスを評価する際の難しさの 1 つは、適切な評価方法を選択することです。一般的に使用される指標は、次のトークンの難しさです。これは、コンテキストに基づいて次のトークンを予測するモデルの能力を測定します。しかし、研究チームは、この指標で良好な結果を得るには通常、利用可能なコンテキスト全体のごく一部に基づいて、適度に一貫性のあるテキスト分布を生成することで達成できると考えているため、長いコンテキストには適していません。 長いコンテキストの状況でのモデルのパフォーマンスを分析するために、この研究では、モデルの再現精度を測定指標として使用し、モデルの長いコンテキストのパフォーマンスを評価するための 3 つのデータセット、LongChat-Lines、FreeFormQA、および AlteredNumericQA を公開しました。このうち、LongChat-Lines はキーと値の取得タスクに使用され、FreeFormQA と AlteredNumericQA は自然な質問データセットに基づく質問応答データセットです。これら 3 つのデータセットは、キー値検索タスクと質問応答タスクにおける LLM の機能を評価できます。モデルが焦点を当てるコンテキストの長さが長いほど、精度が高くなります。 実験と結果研究チームは、上記の 3 つの新しいデータセットを使用して、いくつかのコンテキスト長外挿方法に関する評価実験を実施しました。 LongChat-Lines の実験結果を以下の表 1 に示します。 FreeFormQA および AlteredNumericQA データセットの評価結果を以下の表 2 および 3 に示します。 全体的に、線形スケーリングが最も効果的であり、切り捨てにはある程度の可能性があり、xPos メソッドは微調整に適応できません。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
<<: AIによる労働者排除の進捗が発表され、真っ先に影響を受けるのは女性、アジア人、ホワイトカラー労働者!誰も免れることはできない
過去数か月間、COVID-19ウイルスは世界中に大きな影響を与えてきました。世界保健機関によると、4...
ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.comより] 2016年11月25日〜26日、北京JWマリオットホテルでWOT2016...
ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。 1. 過去世と現在世ドラッグ アン...
今後20年間で、人工知能やロボット、ドローン、自動運転車などの関連技術により、中国での雇用は約12%...
人工知能の破壊的な可能性を解き放ち、それがドローンの未来をどのように変えるのかを探ります。常に進化を...
[[122758]]ロード ホストは、スケジューリング メソッドまたはアルゴリズムと呼ばれる多くの負...
[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
「最初のディープラーニングフレームワークをどのように選択するか」は、初心者にとって常に頭痛の種でし...
スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、 Google DeepMindも最...
4月18日、北京メディアセンターで第2回世界情報会議の記者会見が開催された。記者会見では、中国共産...