コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

今年2月、MetaはLLaMA大規模言語モデルシリーズをリリースし、オープンソースチャットボットの開発を成功裏に推進しました。 LLaMA は、これまでリリースされた多くの大規模モデル(パラメータ数は 70 億から 650 億の範囲)よりもパラメータ数が少ないにもかかわらず、パフォーマンスが優れているためです。たとえば、650 億のパラメータを持つ最大の LLaMA モデルは、Google の Chinchilla-70B や PaLM-540B に匹敵します。そのため、リリースされたときは多くの研究者が興奮しました。

しかし、LLaMA は学術界の研究者にのみライセンス供与されており、モデルの商業的応用は制限されています。

そのため、研究者たちは商業目的で使用できる LLaMA を探し始めました。カリフォルニア大学バークレー校の博士課程の学生 Hao Liu 氏が始めたプロジェクトである OpenLLaMA は、LLaMA のオープンソース レプリカの中でも人気の高いものの 1 つです。OpenLLaMA は、オリジナルの LLaMA とまったく同じ前処理とトレーニング ハイパーパラメータを使用します。OpenLLaMA は LLaMA のトレーニング手順を完全に踏襲していると言えます。最も重要なのは、このモデルが市販されていることです。

OpenLLaMA は、Together がリリースした RedPajama データセットでトレーニングされました。モデル バージョンには 3B、7B、13B の 3 つがあります。これらのモデルは 1T トークンでトレーニングされています。結果は、OpenLLaMA が多くのタスクでオリジナルの LLaMA と同等かそれ以上のパフォーマンスを発揮することを示しています。

研究者は、新しいモデルを継続的にリリースするだけでなく、モデルのトークン処理能力についても調査を続けています。

数日前、Tian Yuandong 氏のチームの最新の研究により、1,000 ステップ未満の微調整で LLaMA コンテキストが 32K に拡張されました。さらに遡ると、GPT-4 は 32k トークン (50 ページのテキストに相当) をサポートし、Claude は 100k トークン (ワンクリックでハリー・ポッターの最初の本を要約するのにほぼ相当) を処理できます。

現在、OpenLLaMA に基づく新しい大規模言語モデルが利用可能であり、コンテキストの長さが 256k トークン以上に拡張されています。この研究は、IDEAS NCBR、ポーランド科学アカデミー、ワルシャワ大学、Google DeepMind が共同で実施した。

写真

LongLLaMAはOpenLLaMAをベースにしており、微調整手法にはFOT(Focused Transformer)を採用しています。この論文では、FOT を使用して既存の大規模モデルを微調整し、コンテキストの長さを拡張できることを示しています。

この研究では、OpenLLaMA-3B モデルと OpenLLaMA-7B モデルを出発点として使用し、FOT を使用して微調整しました。結果として得られるモデルは LONGLLAMA と呼ばれ、トレーニング コンテキストの長さ (最大 256K) を超えて外挿し、短いコンテキストのタスクでパフォーマンスを維持することができます。

  • プロジェクトアドレス: https://github.com/CStanKonrad/long_llama
  • 論文アドレス: https://arxiv.org/pdf/2307.03170.pdf

この研究を OpenLLaMA の無限コンテキスト バージョンと表現する人もいます。FOT の助けを借りて、モデルはより長いシーケンスに簡単に外挿できます。たとえば、8K トークンでトレーニングされたモデルは、256K ウィンドウ サイズに簡単に外挿できます。

写真

この記事では、Transformer モデルのプラグアンドプレイ拡張機能である FOT メソッドを使用します。これを使用して、新しいモデルをトレーニングしたり、より長いコンテキストで既存の大規模モデルを微調整したりできます。

これを実現するために、FOT はメモリ アテンション レイヤーとクロスバッチ トレーニング プロセスを使用します。

  • メモリアテンションレイヤーにより、モデルは推論時に外部メモリから情報を取得できるようになり、コンテキストを効果的に拡張できます。
  • クロスバッチトレーニングプロセスにより、モデルはメモリアテンションレイヤーでの使用に便利な (キー、値) 表現を学習する傾向があります。

FOT アーキテクチャの概要については、図 2 を参照してください。

写真

次の表は LongLLaMA のモデル情報の一部を示しています。

写真

最後に、このプロジェクトでは、LongLLaMA とオリジナルの OpenLLaMA モデルの比較結果も提供しています。

下の図は LongLLaMA のいくつかの実験結果を示しています。パスワード検索タスクでは、LongLLaMA は優れたパフォーマンスを達成しました。具体的には、LongLLaMA 3B モデルはトレーニング コンテキストの長さ 8K をはるかに超え、100k トークンで 94.5% の精度、256k トークンで 73% の精度を達成しました。

写真

次の表は、2 つのダウンストリーム タスク (TREC 質問分類と WebQS 質問回答) における LongLLaMA 3B モデルの結果を示しています。結果は、長いコンテキストを使用すると LongLLaMA のパフォーマンスが大幅に向上することを示しています。

写真

以下の表は、長いコンテキストを必要としないタスクでも LongLLaMA が優れたパフォーマンスを発揮することを示しています。実験では、LongLLaMA と OpenLLaMA をゼロショット設定で比較します。

写真

詳細については、元の論文とプロジェクトを参照してください。


<<:  フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

>>:  Appleとオレゴン州立大学がAutoFocusFormerを提案: 従来のグリッドを廃止し、適応型ダウンサンプリング画像セグメンテーションを使用

ブログ    

推薦する

ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

[[435206]]近年、ディープニューラルネットワークは多くの科学技術上の問題において優れたパフ...

王の英雄を見極める – PM の機械学習初心者の旅

[[204836]]基本概念先月、私は機械学習を原理レベルから理解し始め、オンライン電子書籍「ニュー...

ディープラーニングデータセットを管理するための新しいアプローチ

ハブの紹介 Activeloop の Hub は、Numpy のような配列にデータを配置するオープン...

...

AIはデザインにおいて具体的にどのように使用されるのでしょうか?

人工知能は、過去数十年で最も大きな技術進歩の一つになりました。可能性は刺激的で無限であり、さまざまな...

初心者向けの機械学習アルゴリズムトップ10

機械学習モデルは全部でいくつありますか?分かりません。誰も数えたことがありません。すべての変種を含め...

...

...

【WOTI】English FluencyのLin Hui氏:教育分野でのAIはまだ初期段階にある

[51CTO.comからのオリジナル記事] 51CTOが主催するWOTI2017グローバルイノベーシ...

スマートホームのヒューマンマシンインターフェース (HMI) におけるエッジ AI

消費者は、利便性、安全性、ユーザーエクスペリエンスを向上させる進歩を飽くなき欲求で求めています。ヒュ...

AIは信頼の危機にどう対処するか

今後 10 年間で AI が改善する必要がある領域が 1 つあります。それは透明性です。しかし、人工...

Docker が Generative AI スタックと Docker AI をリリース

10月12日、DockerはロサンゼルスでDockercon 23カンファレンスを開催し、新しいDo...

...

機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習や人工知能の分野で最も重要なトピックをわかりやすく説明するにはどうすればよいでしょうか?人工...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...