Jia Jiayaのチームが世界初の70B長文大規模言語モデルをオープンソース化し、ProMaxを使って論文や小説を直接読めるようにした。

Jia Jiayaのチームが世界初の70B長文大規模言語モデルをオープンソース化し、ProMaxを使って論文や小説を直接読めるようにした。

皆さん、大規模言語モデル(LLM)の長年の課題がついに解決されました!

つい最近、香港中文大学とMITの賈佳雅氏のチームが、行き詰まりを打破する新たな研究を発表しました。

700億のパラメータを持つ世界初のオープンソース長文大規模言語モデル「LongAlpaca」をリリースしました。

今回チームによってオープンソース化された LongAlpaca は、単なる単一の大きな言語モデルではなく、実際には以下を含むシリーズであることは注目に値します。

  • ミディアムカップ:ロングアルパカ-7B
  • ラージカップ:LongAlpaca-13B
  • 特大カップ:LongAlpaca-70B

完全なトレーニングと評価の背後でさらに重要なのは、研究チームによって慎重に選択され、改良された長いテキスト データセットLongAlpaca-12kです。

そして、自社開発の大規模言語モデルテキスト長拡張ソリューションであるLongLoRAのサポートにより、最終結果は驚くべき結果を達成しました。

わずか 2 行のコードと 8 枚のカードを備えた A100 マシンで、7B モデルのテキスト長を 100k トークンに拡張でき、70B モデルのテキスト長を 32k トークンに拡張できます。

現在主流の大規模言語モデルは短いテキスト入力のみをサポートしていることを知っておく必要があります(LLaMa は 2k トークンをサポートし、Llama2 は 4k トークンをサポートします) 。実際の使用では、長いテキスト入力が必要になることがよくあります。

たとえば、大規模な言語モデルを使って小説のあらすじを解釈したり、論文の分析などに役立てたりすることができます。

これまで、オープンソースの大規模言語モデルでテキストの長さを拡張したい場合、基本的には計算能力を積み重ねる必要があり、簡単に 100 個を超える GPU または TPU を消費していました。

膨大な量のコンピューティング リソースを消費するだけでなく、特殊なデータ セットが不足しているため、長いテキスト入力から得られる結果はそれほど理想的ではありません。

これが冒頭で述べた「長いテキスト」の起源です。

では、賈佳雅氏が率いる研究チームが発表したLongAlpacaの具体的な効果とは何でしょうか?

さあ、一緒に体験してみましょう。

「世界初」の直接体験

これは直接体験なので、私たちの主な焦点は、あらゆる側面から LongAlpaca を評価することです。

論文が賞を受賞した理由を分析する

まず、ICLR からの口頭発表論文(合計 12487 トークン)を LongAlpaca に入力し、受賞理由の分析を依頼してみます。

論文の長さは、私たちが普段尋ねる普通の質問ほど短くはなく、論文全体のテキストは論理的に関連しており、非常に厳密です。

このような専門的な論文に対しても、LongAlpaca は論文で提案された方法の新規性、フレームワークの総合的な評価、実験結果などの重要な要素を分析し、比較的完璧な回答を出しました。

最終的な要約は次のとおりです。

要約すると、この論文が賞を受賞した主な理由は、提案された Domino 法と評価フレームワークの新規性、有効性、汎用性であり、スライス検出における最先端の技術を推進するものです。包括的な実験評価と定量分析により、概念的な貢献を裏付ける強力な経験的証拠が得られます。

2つの論文に基づいて会議スタイルの違いを分析する

最初の評価内容から判断すると、LongAlpaca は論文の内容の長さを完璧に把握しています。

では、2 つの記事を「フィード」して相互に比較した場合、それはまだ有効でしょうか?

これ以上何も言わずに、ただ「放り込んでください」:

これら2つの論文をもとに、2つのカンファレンスの違いを比較してみましょう(合計25802トークン)

同様に、LongAlpaca は複数の角度と側面からこの質問に答えます。

論文の構造、技術の深さ、理論と実験、表現、さらには記事の言語スタイルまで、すべてが具体的な分析結果をもたらします。

最後に、LongAlpaca は次のように結論付けました。

CVPR の記事はより構造化され、実験的であり、コンピューター ビジョン タスクの方法の説明に重点を置いています。

ICLR 論文のスタイルはより柔軟で、メタ学習の洞察を証明する主要な公式と理論的分析に重点を置いています。

有名な本の章についての質問

LongAlpaca による論文分析を体験した後、さらにドラマチックな小説も扱えるかどうか確認してみましょう。

『西遊記』からの抜粋(合計 36,870 トークン)を入れて、次のように質問します。

『西遊記』では、孫悟空は天国で大混乱を引き起こしたにもかかわらず、仏典を手に入れるための旅で何度も挫折したのはなぜでしょうか?

LongAlpaca は西遊記のストーリータイムラインに基づいて、孫悟空が天国で問題を起こした際の傲慢さ、仏陀による能力の制限、そして道中で強力になるモンスターなど、その理由を分析しました。

要約すれば:

強力な敵、力の限界、欺瞞、仲間の不足が、旅の失敗の当初の理由でした。しかし、時が経つにつれて、彼は知恵、経験、仲間を得て、最終的にはさらに強力な敵を倒せるようになりました。

ラマ2との競争

さまざまな垂直評価の後には、水平比較も必要です。

では、大規模言語モデルのオープンソース コミュニティで非常に人気のある Llama 2 と比較して、LongAlpaca のパフォーマンスはどうでしょうか?

今回は「ビッグカップ」プレイヤー LongAlpaca-13B を送り、次の質問をしました。

「三体」第1部の章(合計32252トークン)によると、葉文潔はなぜエイリアンと接触したのか、そしてなぜ後で後悔したのか?

LongAlpaca-13B は比較的正確な答えを出したと言えます。

葉文潔がエイリアンと最初に接触したのは理想主義と復讐心からだったが、時が経つにつれ、彼女の人間性に対する見方は変わり、自分が全人類に危険をもたらしたかもしれないことに気づき、後悔の念が増していく。

一方、13Bの大規模言語モデルでもあるLlama 2は、テキストのほとんどが質問自体を中心に展開されていなかったため、やや残念な回答を出した。

簡単に言うと:

結局、彼女は自分の行動が予想もしなかった結果を招いたことに気づき、後悔の念を覚えた。

つまり、さまざまな評価パフォーマンスから判断すると、LongAlpaca は確かに長いテキスト入力の問題に対処する上で優れた最適化を達成しています。

それで次の質問です:

これはどうやって行うのですか?

左手でデータを把握し右手で戦略を立てる。これが LongAlpaca のやり方です。

データに関して言えば、先ほど述べたように、長文大規模言語モデルのトレーニングが難しいのは、公開されている長文会話データが不足していることです。

さらに、これまでの長文テキスト モデルのトレーニングでは、主に「次のトークン生成」方式を使用して非会話コーパスの事前トレーニングを継続していました。

この方法では、モデルの位置エンコード形式を長いテキストに合わせて調整できますが、モデルが優れた会話機能を持つことが難しいという欠点も明らかです。

そこで、Jia Jiaya 氏のチームは、有名な書籍、論文、詳細なレポート、さらには財務諸表に関するさまざまな質問と回答を含む、9,000 の長文の質問と回答のコーパス ペアを収集しました。

その中で、論文に関する質疑応答が最も詳しく、「レビュー」「論文比較」「会議スタイル比較」「改訂提案」、論文の内容に関する質問などが含まれています。

しかし、結局のところ、長所を強調する一方で、欠点を忘れてはいけません。そのため、Jia Jiaya のチームは、混合トレーニング用に、元の Alpaca データセットから約 3,000 個の短い質問と回答のコーパスも選択しました。

ついに、前述のLongAlpaca-12kの構築に成功しました。

次は戦略レベルです。

先ほど述べたように、大規模言語モデルにおける長いテキスト入力の問題におけるもう 1 つの長年の課題は、コンピューティング リソースの膨大な消費です。

具体的には、自己注意メカニズムの計算に焦点を当てており、コストはテキストの長さに応じて 2 乗的に増加します。

そこで研究チームはこれを突破口として、開発中の大規模言語モデル向けのテキスト長拡張方式であるLongLoRAを提案し、同時にグループ化とオフセットの方法を用いてグローバル自己注意メカニズムをシミュレートしました。

△LongLoRA設計概要

その中でも、LongLoRA の具体的な重要な技術的ポイントは、シフトショートアテンション、つまりバイアスショートアテンションです。

その中心となるアイデアは、密なグローバルな注意を疎なローカルな注意に置き換えることです。

これは、大まかに言えば、検索時に一致度と類似度が高いセントクスのみを使用するという考え方です。

これにより、コンピューティング リソースの消費を大幅に削減できます。

△シフトショートアテンション図

さらに重要なのは、LongLoRA のトレーニングには 2 行のコードしか必要ないことです。

さらに、LongLoRA は低ランクのトレーニング方法も検討しました。 LoRA などの元の低ランクトレーニング方法では、テキスト長の移行において良好な結果を達成できません。

LongLoRA は、低ランクトレーニングに基づいて、微調整用の埋め込みレイヤー(埋め込みレイヤーと正規化レイヤー)を導入し、完全な微調整に近い効果を実現します。

8k 長のモデルトレーニングの場合、LongLoRA は、完全なパラメータの微調整と比較して、ビデオメモリの消費量を 46.3 GB から 25.6 GB に削減します。

64k の長さのモデルトレーニングの場合、LongLoRA では、通常の LoRA と比較してトレーニング時間が約 90 ~ 100 時間から 52.4 時間に短縮されます。

△パラメータの微調整、従来のLoRAとLongLoRAの性能比較

LongLoRA は、テキストモデリング(Proof-pile、PG-19)や情報検索(トピック検索、パスキー検索)など、さまざまな言語タスクで優れたパフォーマンスを発揮していることは特筆に値します。

さらに、LongLoRA は、優れた言語モデリング パフォーマンスを維持しながら、1 台の 8 カード A100 マシンで 7B モデルのテキスト長を 100k トークンまで、70B モデルのテキスト長を 32k トークンまで拡張できます。

どのように展開しますか?

このような「速くて、良くて、経済的な」プロジェクトを試してみませんか?

現在、GitHub でオープンソース化されており、非常に詳細なデプロイメント チュートリアルが提供されています。

たとえば、インストールに関しては、次の 6 つの簡単な手順だけが必要です。

1. GitHub でこのリポジトリをフォークします。

2. git clone を使用してローカル マシンにリポジトリをクローンし、このプロジェクトの URL を貼り付けます。

3. 次のコードを実行します。

 pip install -r requirements.txt pip install flash-attn --no-build-isolation

4. 好みに応じて「公開モデル」と「微調整モデル」を使用します。

5. 対話を通じてモデルをテストします。

6. 独自のデモにデプロイします。

他にもさまざまな「カップ型」モデルやトレーニングプロセスコードなどがあり、チームはGitHubプロジェクトで詳細を公開しています。

必要な友達は下のリンクをクリックして受け取ってください〜

GitHub プロジェクト アドレス: https://github.com/dvlab-research/LongLoRA

論文アドレス: https://browse.arxiv.org/pdf/2309.12307.pdf

<<:  ディズニーは強化学習を利用して新しいロボットをスターウォーズ風に仕上げた

>>:  2024年以降に注目すべき10のジェネレーティブAIトレンド

ブログ    

推薦する

テンセントが業界初のAIセキュリティ攻撃マトリックスを発表、リスク排除が辞書を引くのと同じくらい簡単に

近年、人工知能は急速に発展し、家庭、金融、交通、医療などさまざまな分野に深く融合し、人々の生活はより...

人工知能(AI)がサプライチェーンに導入されると

サプライチェーンを理解する簡単に言えば、サプライ チェーンには、製品またはサービスをエンド ユーザー...

...

ニューラルネットワークの層とノードの数を設定する方法

[51CTO.com クイック翻訳] 人工ニューラル ネットワークには、ネットワークのアーキテクチャ...

...

Python プログラミングにおける 3 つの一般的なデータ構造とアルゴリズム

Python には、リスト、セット、辞書など、非常に便利な組み込みデータ構造が多数あります。ほとんど...

人間の顔の価値はどれくらいでしょうか?顔認識グレー産業チェーン

[[335658]]現在、数十のスタートアップ企業や大手テクノロジー企業が、ホテル、小売店、さらには...

...

ベンチマーク: 14 のソートアルゴリズムと PHP 配列

この記事では、PHP で記述されたソートアルゴリズムのテストについて紹介します。ソートアルゴリズムは...

機械学習をプログラマーにとってより身近なものにする方法

導入人々は長い間、人工的に生成されたコンテンツを理解するためにアルゴリズムを手動でコーディングしよう...

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか?

[[384524]]ニューヨークのマンハッタン北部のアパートで男性2人が人質に取られている。その数...

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。カリフォルニア大学サ...

私の国のロボット市場は活況を呈しているが、人材と技術的な問題はまだ解決する必要がある。

「スマート+」時代の到来とともに、人工知能、5G、モノのインターネット、ビッグデータなどの技術が徐...

女神の若々しい姿が全開!テンセントのAIモデルGFPGANがGitHubのホットリストで1位に

[[440335]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

マスク氏:スマートウォッチや携帯電話は時代遅れの技術、脳コンピューターインターフェースこそが未来

マスク氏はテスラがスマートウォッチやスマートフォンを開発しているという説を否定している。テスラがスマ...