陳丹奇チームの新作:5%のコストでSOTAを達成、「アルパカの毛刈り」法が人気

陳丹奇チームの新作:5%のコストでSOTAを達成、「アルパカの毛刈り」法が人気

わずか3% の計算労力5% のコストで SOTA を達成し、1B-3B 規模の大規模オープンソース モデルを上回りました。

この成果はプリンストン大学のChen Danqi 氏のチームによるもので、 LLM-Shearing大規模モデル剪定法と呼ばれています。

アルパカ LLaMA 2 7B に基づいて、1.3B と 3B の剪定後の Sheared-LLama モデルが、指向性構造剪定によって取得されました。

下流タスク評価では、同じサイズの以前のモデルを上回ります。

第一著者の夏孟州氏は、「最初から事前トレーニングを行うよりもはるかに費用対効果が高い」と述べた。

この論文では、剪定された Sheared-LLaMA 出力の例も示されており、規模がわずか 13 億と 27 億であるにもかかわらず、一貫性があり内容が豊富な応答を生成できることを示しています。

同じ「半導体業界アナリストを演じる」タスクの場合、バージョン 2.7B の回答構造はさらに明確になります。

研究チームによると、剪定実験にはLlama 2 7Bバージョンのみが使用されたが、この方法は他のモデルアーキテクチャにも適用できあらゆる規模に拡張できるという。

もう 1 つの利点は、プルーニング後に、高品質のデータセットを選択して事前トレーニングを続行できることです。

ある開発者は、6 か月前には 65B 未満のモデルは実用的ではないとほぼ全員が考えていたと述べています。

この傾向が続けば、1B-3B モデルも、今でなくても、近いうちに大きな価値を生み出すことになるでしょう。

プルーニングを制約付き最適化として扱う

LLM-Shearing は、具体的には、大規模なモデルを指定されたターゲット構造に剪定する、指向性構造化剪定です。

以前のプルーニング方法では、一部の構造が削除され、表現力に影響を与えるため、モデルのパフォーマンスが低下する可能性があります。

新しい方法では、プルーニングを制約付き最適化問題と見なし、パフォーマンスの最大化を目指しながら、指定された構造に一致するサブネットワークを検索するためのプルーニング マスク マトリックスを学習します。

次に、プルーニングされたモデルは、プルーニングによって生じたパフォーマンスの低下をある程度回復するために、事前トレーニングを継続します。

この段階で、チームは、プルーニングされたモデルと最初からトレーニングされたモデルの損失削減率がデータセットごとに異なり、データの利用が非効率的になることを発見しました。

この目的のために、研究チームは、異なるドメインのデータに対するモデルの損失削減率に基づいて各ドメインのデータの割合を動的に調整し、データの利用効率を向上させる「ダイナミックバッチローディング」を提案しました。

実験により、剪定されたモデルは、最初は最初からトレーニングされた同じサイズのモデルよりもパフォーマンスが大幅に低下しますが、事前トレーニングを継続すると急速に改善され、最終的にはそれを上回ることがわかりました。

これは、強力なベースモデルからの剪定により、継続的な事前トレーニングのためのより優れた初期化条件を提供できることを示唆しています。

更新し続けます、一つずつ切りに来てください

論文の著者は、プリンストン大学の博士課程学生である夏孟洲氏高天宇氏、清華大学の曽志遠氏、プリンストン大学の助教授である陳丹奇氏である。

夏孟州は復旦大学で学士号を取得し、CMUで修士号を取得しました。

清華大学で学士号を取得した高天宇氏が、2019年の清華大学特別賞を受賞した。

二人とも、現在プリンストン大学の助教授であり、プリンストン NLP グループの共同リーダーである Danqi Chen 氏の教え子でした。

最近、陳丹奇氏は自身のホームページで自身の研究の方向性を更新しました。

「最近は主に大型モデルの開発に興味があります」と語り、研究しているトピックには次のようなものがあります。

  • 検索が次世代モデルで重要な役割を果たし、現実感、適応性、解釈可能性、信頼性を向上させる仕組み。
  • 大規模モデルの低コストのトレーニングと展開、トレーニング方法の改善、データ管理、モデル圧縮、下流のタスク適応の最適化。
  • 私はまた、経験的にも理論的にも、現在の大規模モデルの能力と限界についての理解を真に深める仕事にも興味があります。

Sheared-Llamaは現在Hugging Faceで販売中です。

チームはオープンソースライブラリは今後も更新され続けると述べた。

大型モデルが発売されるごとに順次カットし、高性能な小型モデルを発売していきます。

もう一つ

大きなモデルは、今では本当にカールしすぎていると言わざるを得ません。

第一著者の夏孟州氏は、論文を書いた当時はまだ SOTA であったが、論文が完成した後、最新の Stable-LM-3B にすでに追い抜かれていたと訂正を発表しました。

論文アドレス: https://arxiv.org/abs/2310.06694

ハギングフェイス: https://huggingface.co/princeton-nlp

プロジェクトのホームページ: https://xiamengzhou.github.io/sheared-llama/

<<:  光量子コンピュータ「九章3号」が発売されました!スーパーコンピューターの1000億倍の速さ、USTCのパン・ジアンウェイ氏のチームより

>>:  速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

ブログ    
ブログ    
ブログ    

推薦する

北京交通大学が中国初の大規模交通モデルTransGPTのソースを公開、商用利用は無料

7月28日、北京交通大学は中国コンピュータ学会のインテリジェント交通部門および祖智多模型公司と協力し...

中国の科学者が色を変えることができる柔らかいロボットを開発

ああ、これはまだ私が知っているロボットですか? 「カモフラージュして色を変える」と「柔らかく変形する...

バッチ正規化の呪い

バッチ正規化は、確かにディープラーニングの分野における大きな進歩の 1 つであり、近年研究者によって...

...

AIとIoTを活用したスマートサプライチェーン

デジタル時代では、サプライチェーンのインテリジェンスのレベルが企業の生産効率とパーソナライズされたサ...

ジャクソンはダンスしながら数秒で3Dロボットに変身します!アリババに新しい仕事が誕生:誰でもビデオを置き換えることができる

何が起こっているのか?アリは新しい仕事を思いついたようです—— MotionShop では、他のシー...

...

この記事では、人工知能がクラウドコンピューティングをどのように変え、私たちの生活にどのような影響を与えるかを説明します。

AIがクラウドコンピューティングをどう変えるかクラウド コンピューティングは、オンライン アクティ...

シングルポイントのエンドツーエンドのテキスト検出および認識フレームワークは 19 倍高速です。華中科技大学、華南理工大学などが共同でSPTS v2をリリース

近年、シーンテキスト読み取り(テキストスポッティング)は大きな進歩を遂げており、テキストの検索と認識...

マスクの後ろに隠れて沈黙しないでください。AIはあなたが誰であるかを知っています

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ブロックチェーンと人工知能の関係は何ですか?ブロックチェーンは人工知能に影響を与えることができるか?

ブロックチェーンと人工知能の関係は何ですか?ブロックチェーンは人工知能に影響を与えることができるか?...

バイトダンスの最新のテキスト生成画像AIには、トレーニングセットにテキスト説明付きの画像が含まれていません。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatG...

...

人工知能1年後:パンデミックはテクノロジーの発展にどのような影響を与えたのでしょうか?

[[389010]]消費者の行動が変化し、企業の業務ニーズが変化するにつれて、人工知能は徐々に企業...