10万ドル＋26日、低コスト1000億パラメータLLMが誕生

大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズモデルなど)、エンコーダーのみの構造 (BERT など)、エンコーダーとデコーダーの構造 (T5 など)、およびそのバリエーションが含まれており、驚異的な成功を収め、さまざまな言語処理やマルチモーダルタスクで広く使用されています。

この成功にもかかわらず、LLM のトレーニング費用は非常に高いため、それを負担できる企業はごくわずかです。さらに、現在の傾向では、将来的にはさらに大量のトレーニングデータが使用されることが示されており、大規模モデルの開発コストはさらに増加することになります。たとえば、LLAMA-1 のトレーニングでは 1 ～ 1.4 TB のトークンが使用されましたが、Llama 2 では 2 TB に達しました。

LLM の開発におけるもう一つの重要な課題は評価です。主流の評価方法は、知識評価（MMLU および C-Eval）と NLP タスク評価の 2 つのカテゴリに分けられます。これらの評価方法では、データ漏洩の問題がある可能性があり、つまり、評価データセットの一部がモデルのトレーニングプロセス中に使用されている可能性があるため、モデルの機能が正確に反映されない可能性があります。さらに、知識指向の評価方法は、知能レベルの評価には適さない可能性があります。より公平で客観的な評価方法は、LLM の知能指数 (IQ)、つまりトレーニングデータには見られない条件やコンテキストに LLM がどの程度一般化できるかを測定することです。

成長戦略。トレーニングコストの問題を解決するために、北京人工知能アカデミーや中国科学院コンピューティング技術研究所を含む多くの機関が最近、成長戦略を通じて初めて数千億のパラメータを持つLLMをトレーニングする試みを行っています。成長とは、トレーニング中にパラメータの数が固定されず、小さなモデルから大きなモデルへとスケールアップすることを意味します。

論文: https://arxiv.org/pdf/2309.03852.pdf
モデル: https://huggingface.co/CofeAI/FLM-101B

図 1 は成長戦略の典型的な 3 つのシナリオを示しています。 LLM の FLOP はパラメータの数にほぼ比例するため、モデルパラメータの変化の曲線と X 軸の間の領域はトレーニングの計算コストを表すことができます。

図 1 (a) はモデル成長のない標準的なトレーニング戦略を示しています。1 (b) はコストを 50% 節約できる線形成長戦略です。1 (c) はコストを 50% 未満節約できる中程度の成長戦略です。1 (d) はコストを 50% 以上節約できる積極的な成長戦略です。この分析は、コンピューティングコストを可能な限り節約するために、積極的な成長戦略を採用する必要があることを示しています。

この新しい研究における成長演算子の設計は、論文「マスクされた構造的成長による言語モデルの事前トレーニングの 2 倍高速化」の MSG からヒントを得たもので、これは Transformer 構造の 4 つの成長次元すべてをカバーする完全な操作セットです。さらに重要なのは、MSG は機能性を厳密に維持しながら成長できることです。したがって、小さなモデルはより小さなパラメータ検索空間で素早く学習できますが、その知識は後続のより大きなモデルに継承されます。これにより、成長戦略では、同じかそれ以下の計算コストで、より優れたパフォーマンスを実現できるようになります。

オープンソースの FLM-101B モデル。人工知能アカデミーの研究者らは、漸進的成長を通じて1010億のパラメータを持つLLMモデルをトレーニングし、そのモデルをオープンソースとして公開するとも発表した。このモデルのアーキテクチャは FreeLM の進化形です。そのため、研究者たちはそれを FLM-101B と名付けました。F は Free (自由) の略です。

FreeLM フレームワークには、それぞれ言語信号と教師信号によってガイドされる 2 つの事前トレーニング目標があります。この新しい研究では、これら 2 つの目標が一般的な言語モデリングパラダイムに統合されています。

IQ評価ベンチマーク。低コストのトレーニングパラダイムに加えて、チームは、LLM 知能指数 (IQ) 評価の体系的なベンチマークを提案することで、もう 1 つの貢献を果たしました。

これまでの研究では、困惑度レベル (PPL) 指標は生成されたテキストの品質をある程度反映できるものの、信頼できるものではないことが示されています。一方、LLMトレーニングデータの規模は非常に大きいため、モデルが単に知識データを引用しているだけなのか、それとも本研究で定義されるIQの基礎となる人間のような推論、分析、一般化能力を本当に実現しているのかを見分けることは困難です。一般的に使用されている評価メトリック (英語の場合は MMLU、中国語の場合は C-Eval) は明らかに知識指向であり、モデルのインテリジェンスレベルを完全に反映することはできません。

チームは妥当性チェックとして、世界的に有名な大学のコンピューターサイエンス研究者 5 名に C-Eval の化学試験問題を使用して試験を受けてもらい、テストを実施しました。結果は、ボランティアのほとんどが学んだ化学の知識を忘れていたため、彼らの正確さはランダムな推測とほぼ同等であることを示しました。したがって、専門知識の程度を重視する評価ベンチマークは、モデルの IQ を測定するのに十分ではありません。

LLM の IQ を総合的に測定するために、チームは、IQ の 4 つの主要な側面 (シンボルマッピング、ルール理解、パターンマイニング、干渉許容度) を考慮した IQ 評価ベンチマークを開発しました。

言語は本質的に象徴的なものです。 LLM の知能レベルを評価するために、カテゴリラベルの代わりにシンボルを使用する研究がいくつかあります。同様に、チームはシンボリックマッピングアプローチを使用して、LLM の未知のコンテキストへの一般化能力をテストしました。
人間の知能の重要な能力は、与えられたルールを理解し、それに応じた行動を取ることです。このテスト方法は、さまざまなレベルのテストで広く使用されています。したがって、ルールの理解がここでの 2 番目のテストになります。
パターンマイニングには帰納法と演繹法が含まれており、これもインテリジェンスの重要な部分です。この方法は科学の発展の歴史において重要な役割を果たしてきました。さらに、さまざまなコンテストのテスト問題では、この回答能力が求められることがよくあります。これに触発されて、パターンマイニングが 3 番目の評価メトリックとして選択されました。
最後に、非常に重要な指標は、干渉に抵抗する能力であり、これもまたインテリジェンスの中心的な能力の 1 つです。研究によれば、言語と画像はどちらもノイズによって簡単に妨害されるそうです。これを念頭に置いて、チームは最終的な評価基準として干渉耐性を使用しました。

もちろん、これら 4 つの指標は LLM IQ 評価の最終版ではありませんが、その後の研究と開発を促す出発点として機能し、最終的には包括的な LLM IQ 評価フレームワークにつながることが期待されます。

この研究の主な貢献は次のとおりです。

研究者らによると、これは成長戦略を使用して LLM で 1000 億を超えるパラメータをゼロからトレーニングする初の試みだという。同時に、これは現在最も低コストの 1000 億パラメータモデルであり、コストはわずか 10 万ドルです。
この研究では、FreeLM トレーニング目標の改善、有望なハイパーパラメータ検索方法、および特徴保存成長によって不安定性の問題に対処します。研究者たちは、この方法が科学研究コミュニティ全体にも役立つと信じている。
研究者らはまた、知識指向のベンチマークと新たに提案された体系的なIQ評価ベンチマークの両方を使用して、新しいモデルを以前の強力なモデルと実験的に比較しました。実験結果は、FLM-101B が競争力があり堅牢なモデルであることを示しています。
チームは、数千億のパラメータを持つ中国語と英語のバイリンガル LLM の研究開発を進めるために、モデルチェックポイント、コード、および関連ツールをリリースします。

FLM-101B 設計概要

アーキテクチャの観点から見ると、FLM-101B は FreeLM をバックボーンネットワークとして使用し、xPos を統合します。モデルのサイズに関しては、新しい成長戦略のおかげで、研究者は 1 回のトレーニングで 16B、51B、101B の 3 つのサイズのモデルを取得できます。

事前トレーニング設定に関しては、FLM-101B は FreeLM のトレーニング戦略を継承します。

成長戦略に関しては、異なるサイズのモデルを個別にトレーニングするという一般的な方法とは異なり、チームは 16B、51B、101B のパラメータを持つ 3 つのモデルを順番にトレーニングすることができ、各モデルは以前のより小さなモデルの知識を継承します。

トレーニングハードウェアとしては、24台のDGX-A800 GPU（8×80G）サーバーのクラスターが使用され、FLM-101Bのトレーニング時間は26日未満でした。その他の並列戦略とモデル構成については、以下の表1と表2を参照してください。

FLM-101Bトレーニング安定性

損失発散や勾配爆発などの不安定性の問題を解決するために、研究者らは有望な解決策を提案しました。これについて簡単に説明します。

損失予測。トレーニングの安定性を実現するために新たに提案された方法は次のとおりです。

まず、FLM-16B のトレーニングを開始する前に、データの分布が決定されます。

次に、学習率、初期化標準偏差、出力層のソフトマックス温度を含む 3 つのハイパーパラメータに対してグリッド検索が実行されます。このグリッド検索は、隠れ状態の次元 (つまり、モデル幅) が 256、ヘッドが 2 つ、パラメータが 4000 万のサロゲートモデルを実行することによって実行されました。このプロキシモデルのその他の構造ハイパーパラメータとトレーニングデータはすべて FLM-16B と同じです。 6 ノードでデータ並列処理を使用すると、グリッド検索を 1 回実行するのに 24.6 時間かかりました。これは、24 ノード構成を使用すると、1 回の実行に 6 時間かかることを意味します。

このグリッド検索を通じて、研究者は最適なハイパーパラメータを発見しました。学習率 = 4e-4、標準偏差 = 1.6e-2、ソフトマックス温度 = 2.0 です。

その後、これらのハイパーパラメータを µP を通じて移行し、不安定性の問題を回避したシームレスなトレーニングエクスペリエンスを実現しました。 MSG、LM-51B、FLM-101B の組み合わせでは、その後の成長分岐の問題は発生しませんでした。

図 2 は完全なトレーニング損失曲線を示しています。

混合精度は Bfloat16 によって実現されます。混合精度を使用する目的は、実行時にメモリと時間のコストを節約することです。ここでは Bfloat16 を選択します。

ベンチマーク評価

表 3 は、FLM-101B のパフォーマンスを他の強力なベースラインモデル (LLAMA シリーズモデルおよび GLM-130B) と比較しています。

研究者らは、これらの結果はFLM-101Bが事実知識においては優位性がないということを示しており、より多くのトレーニングデータが使用された場合、そのパフォーマンスは向上し続けるだろうと述べた。

表4は、専門知識評価の観点から見たeFLM-16Bとベースラインモデルの結果を示しています。

専門知識を重視したデータセットのスコアは、特定のトレーニングデータが圧倒的な貢献をしている可能性があるため、LLM の知能レベルを反映していないことが判明しました。

表5は各段階でのFLMモデルのパフォーマンスを示しています。

予想どおり、モデルのサイズが大きくなるにつれて、FLM のパフォーマンスが向上します。 FLM-101B は、ほぼすべてのミッションで最高のパフォーマンスを発揮します。つまり、モデルが成長するたびに、前の段階から知識を継承することになります。

IQ実験

実験では、LLM の IQ をより体系的に評価するために、ASC のチームは既存の IQ 関連データセットを使用し、必要な変更を加えました。また、新しい合成データも生成しました。

具体的には、彼らが提案した IQ 評価では、主に、シンボルマッピング、ルール理解、パターンマイニング、干渉防止の 4 つの側面を考慮します。これらのタスクには共通する重要な点が 1 つあります。それは、すべてが推論と新しいコンテキストへの一般化に依存していることです。

次の表は IQ 実験の結果を示しています。

これらの表から、これら 4 つの IQ 評価ベンチマークにおいて、FLM-101B は、はるかに低い計算コストで、GPT-3 に匹敵し、GLM-130B よりも優れた結果を達成していることがわかります。

研究者らは、トレーニングデータの影響に加えて、初期段階では小さなモデルが小さな検索空間を絞り込むため、この利点が生じる可能性があると推測しており、この利点は、モデルがさらに大きく広くなり、一般化能力が強化されたときにも引き続き役割を果たしている。

<<:

>>: 大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

10万ドル＋26日、低コスト1000億パラメータLLMが誕生

FLM-101B 設計概要

FLM-101Bトレーニング安定性

ベンチマーク評価

IQ実験

アンビエントコンピューティングが次の大きなトレンドになる理由

機械学習コードを単体テストするにはどうすればいいですか?

RPA 導入が失敗する 7 つの理由

K-means クラスタリングがあるのに、なぜ DBSCAN クラスタリングアルゴリズムが必要なのでしょうか?

シリコンバレーの大手企業トップ5社のエンジニアの年収が明らかに、Googleが134万ドルでトップに！しかし、アメリカ人の37%はAIツールに対して悲観的だ

1760億のパラメータを持つBLOOMZの推論、パフォーマンスレイテンシはわずか3.7秒

AIの5つの本当の危険性

生成型 AI が従来のデータベースを破壊する 10 の方法

推薦する

産業オートメーションにおけるコンピュータビジョンの応用と利点

機械分野では人材不足が起きているのでしょうか？人工知能の時代はあなたが思っているよりもずっと早く来ています!

ディープラーニングのコードを信頼できるのはなぜでしょうか?

Googleのエンジニアリングディレクターがアルゴリズム改善の背後にある数字を明らかに

LVS セットアップノート: 負荷分散アルゴリズム

[NCTSサミットレビュー] Testin Xu Kun: AIが次世代のテストをリード、iTestinがテストの未来を書き換える

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

AIの文章検出ツールは信頼性が低く、米国憲法は実際にはロボットによって書かれたと考えられている

北京大学光華管理学院周連：人工知能は中間所得層にどのような影響を与えるのでしょうか？

チャットボットはデータセンターをよりスリムで効率的にする

ネイチャー誌が量子コンピューティングの大きな進歩を発表：史上初の量子集積回路が実現