アルパカファミリーモデルが集合的に進化！ Tian Yuandong のチームが作成した、GPT-4 と同等の 32k コンテキスト

オープンソースのアルパカモデル LLaMA コンテキストは、1 つの簡単な変更だけで GPT-4 と同等になります。

Meta AI が提出したばかりの論文によると、LLaMA コンテキストウィンドウは、2k から 32k に拡張した後、1000 ステップ未満の微調整しか必要としないことが示されています。

事前トレーニングと比較するとコストはごくわずかです。

コンテキストウィンドウを拡張すると、AI の「作業メモリ」容量が増加します。具体的には、次のことが可能になります。

より安定したロールプレイングなど、より多くの対話ラウンドをサポートし、忘れっぽさを軽減します。
より長い文書や複数の文書を一度に処理するなど、より複雑なタスクを完了するには、より多くのデータを入力します。

さらに重要な意義は、LLaMA に基づくすべての大規模アルパカモデルファミリが低コストでこの方法を採用し、集合的に進化できることです。

Alpaca は現在、最も強力な総合機能を備えたオープンソースの基本モデルであり、完全にオープンソースの商用大規模モデルや垂直産業モデルを数多く生み出してきました。

論文の責任著者である田元東氏も、この新たな進歩を自身のWeChatモーメントで興奮気味に共有した。

RoPEに基づく大規模モデルを使用できる

この新しい方法は位置補間と呼ばれ、RoPE (回転位置エンコーディング) を使用する大規模モデルに適用できます。

RoPE は、2021 年に Zhuiyi Technology チームによって提案され、現在では大規模モデルで最も一般的な位置エンコード方法の 1 つになっています。

ただし、このアーキテクチャで外挿を直接使用してコンテキストウィンドウを拡張すると、自己注意メカニズムが完全に破壊されます。

具体的には、事前トレーニングのコンテキストの長さを超える部分では、モデルの困惑度がトレーニングされていないモデルと同じレベルに急上昇します。

新しい方式では、位置インデックスを線形に減らし、前後の位置インデックスと相対距離を揃える範囲を拡大するように変更されています。

両者の違いを示すには、画像を使用する方が直感的です。

実験結果によると、新しい方法は 7B から 65B の範囲の大規模な LLaMA モデルに効果的です。

長いシーケンスの言語モデリング、パスキーの取得、長いドキュメントの要約では、パフォーマンスの大幅な低下は見られません。

実験に加えて、新しい方法の詳細な証明も論文の付録に記載されています。

あと3つ

コンテキストウィンドウは、オープンソースのビッグモデルと商用のビッグモデル間の重大なギャップでした。

たとえば、OpenAI の GPT-3.5 は最大 16k、GPT-4 は 32k、AnthropicAI の Claude は最大 100k をサポートします。

同時に、LLaMA や Falcon などの多くのオープンソースの大規模モデルはまだ 2k のままです。

現在、Meta AI の新たな成果により、このギャップは直接埋められています。

コンテキストウィンドウの拡張も、大規模モデル研究の最近の焦点の 1 つです。位置補間法に加えて、業界の注目を集めている他の多くの試みがあります。

1. 開発者の kaiokendev は、技術ブログで LLaMa コンテキストウィンドウを 8k に拡張する方法を検討しました。

2. データセキュリティ企業 Soveren の機械学習責任者 Galina Alperovich 氏は、コンテキストウィンドウを拡張するための 6 つのヒントを記事にまとめました。

3. Mila、IBM、その他の機関のチームも論文の中で、Transformer の位置エンコーディングを完全に削除しようと試みました。

必要な方は下のリンクをクリックしてご覧ください〜

メタ論文: https://arxiv.org/abs/2306.15595

コンテキストの拡張は難しい…しかし不可能ではないhttps://kaiokendev.github.io/context

LLM の 100K コンテキストウィンドウの背後にある秘密のソース https://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

位置エンコーディングなし論文 https://arxiv.org/abs/2305.19466

<<: Moka、業界初となるAIネイティブHR SaaS製品「Moka Eva」をリリース、AGI時代を見据えた準備万端

>>:

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

ブログ

知っておくべき 10 個の機械学習 API

ブログ

民間ドローンの産業応用シナリオに関する簡単な議論

ブログ

AIチップとは何ですか?人々が知っておくべきことすべて

ブログ

PyTorchに負けました！ GoogleはTensorFlowを放棄し、JAXに賭ける

ブログ

自然言語処理がビジネスインテリジェンスの未来である理由

ブログ

金融業界がビッグモデルの導入を遅らせているのはなぜでしょうか?

ブログ

Reverse Midjourneyがオンラインになりました！デジタルアーティストがスティーブ・ジョブズに魅了され、写真がボルヘスの精神世界に入る

ブログ

プログラマーは「自殺」している。人工知能が進化し続ける中、人間は何をすべきか？

ブログ

アルパカファミリーモデルが集合的に進化！ Tian Yuandong のチームが作成した、GPT-4 と同等の 32k コンテキスト

RoPEに基づく大規模モデルを使用できる

あと3つ

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

知っておくべき 10 個の機械学習 API

民間ドローンの産業応用シナリオに関する簡単な議論

AIチップとは何ですか?人々が知っておくべきことすべて

PyTorchに負けました！ GoogleはTensorFlowを放棄し、JAXに賭ける

自然言語処理がビジネスインテリジェンスの未来である理由

金融業界がビッグモデルの導入を遅らせているのはなぜでしょうか?

Reverse Midjourneyがオンラインになりました！デジタルアーティストがスティーブ・ジョブズに魅了され、写真がボルヘスの精神世界に入る

プログラマーは「自殺」している。人工知能が進化し続ける中、人間は何をすべきか？

推薦する

テキストからキーワードを抽出するにはどうすればいいですか? Daguan Dataが使用する3つのアルゴリズムから始めましょう

Logreduce: Python と機械学習でログノイズを除去する

星が輝くとき - WOT グローバルテクノロジーイノベーションカンファレンス 2021 が間もなく開催されます

機械学習は、企業がサイバー脅威と戦うのにどのように役立ちますか?

ドローン配送の価値は強調されていますが、完全に普及するには何が欠けているのでしょうか?

バックエンド開発にとってどれほど恥ずかしいことでしょうか?フロントエンドプログラマーの給与が明らかに

ディープラーニングを使った顔認証

自然言語処理がビジネスインテリジェンスの未来である理由

自動運転のフードデリバリーが利用可能に、Meituanがすぐにあらゆるものを配達

女性の死因第1位である乳がんをディープラーニングで検出するにはどうすればいいのでしょうか?

AI時代、私たちは将来の仕事にどう備えればいいのでしょうか？

EasyDLコンピューティング機能：10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?