Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソースプロジェクトです。

オープンソースモデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チューリング賞受賞者のヤン・ルカン氏も、次のように感想を述べています。「オープンソースの AI モデルは、独自のモデルを超えつつあります。」

独自モデルは、技術的なパフォーマンスとイノベーション能力の点で並外れた力を発揮してきましたが、そのクローズドソースの性質が LLM の開発の障害となっています。一部のオープンソースモデルは、実務家や研究者に多様な選択肢を提供していますが、そのほとんどは最終的なモデルの重みまたは推論コードのみを公開しており、その範囲をトップレベルの設計と表面統計に限定する技術レポートが増えています。このクローズドソース戦略は、オープンソースモデルの開発を制限するだけでなく、LLM 研究分野全体の進歩を大きく妨げます。

つまり、トレーニングデータの詳細、アルゴリズムの詳細、実装の課題、パフォーマンス評価など、これらのモデルをより完全かつ詳細に共有する必要があるということです。

Cerebras、Petuum、MBZUAIなどの研究者が共同でLLM360を提案しました。これは、LLM を完全にオープンソース化する取り組みであり、トレーニングコードとデータ、モデルチェックポイント、中間結果など、LLM トレーニングに関連するすべてをコミュニティに提供することを提唱しています。 LLM360 の目標は、LLM トレーニングプロセスを誰にとっても透明かつ再現可能にし、オープンで協調的な AI 研究の発展を促進することです。

論文アドレス: https://arxiv.org/pdf/2312.06550.pdf
プロジェクトウェブサイト: https://www.llm360.ai/
ブログ: https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

研究者たちは、LLM360 アーキテクチャを、その設計原理とそれを完全にオープンソースにする根拠に重点を置いて開発しました。これらは、データセット、コードと構成、モデルチェックポイント、メトリック、その他の具体的な詳細など、LLM360 フレームワークのコンポーネントを詳細に指定します。 LLM360 は、現在および将来のオープンソースモデルの透明性の例を示します。

研究者らは、LLM360 のオープンソースフレームワークの下でゼロから事前トレーニングされた 2 つの大規模言語モデル、AMBER と CRYSTALCODER をリリースしました。 AMBER は、1.3T トークンで事前トレーニングされた 70 億の英語言語モデルです。 CRYSTALCODER は、1.4T トークンで事前トレーニングされた 7B の英語およびコード言語モデルです。この論文では、研究者らは 2 つのモデルの開発の詳細、予備的な評価結果、観察結果、および得られた教訓をまとめています。リリース時点では、AMBER と CRYSTALCODER はトレーニング中にそれぞれ 360 個と 143 個のモデルチェックポイントを保存することは注目に値します。

次に、記事の具体的な内容を見ていきましょう。

LLM360 フレームワーク

LLM360 は、LLM 事前トレーニングプロセス中に収集する必要があるデータとコードの標準を提供し、既存の作業をコミュニティ内でより適切に循環および共有できるようにします。主に以下の部分が含まれます。

1. トレーニングデータセットとデータ処理コード

事前トレーニングデータセットは、大規模言語モデルのパフォーマンスにとって非常に重要です。したがって、潜在的な行動上の問題やバイアスを評価するには、事前トレーニングデータセットを理解することが重要です。さらに、公開されている事前トレーニングデータセットは、その後の微調整やさまざまな分野への適応において LLM のスケーラビリティを向上させるのに役立ちます。最近の研究では、重複データでトレーニングすると、モデルの最終的なパフォーマンスが不釣り合いに低下する可能性があることが示されています。したがって、元の事前トレーニングデータを公開すると、下流を微調整したり、特定のドメインで事前トレーニングを継続したりするときに、重複したデータを使用することを回避できます。上記の理由から、LLM360 は大規模言語モデルのオリジナルデータセットを公開することを提唱しています。適切な場合には、データのフィルタリング、処理、トレーニングシーケンスに関する詳細な情報も開示する必要があります。

2. トレーニングコード、ハイパーパラメータ、構成

トレーニングコード、ハイパーパラメータ、および構成は、LLM トレーニングのパフォーマンスと品質に大きな影響を与えますが、必ずしも公開されるわけではありません。 LLM360 では、研究者は事前トレーニングフレームワークのすべてのトレーニングコード、トレーニングパラメーター、システム構成をオープンソース化しています。

3. モデルチェックポイント

モデルのチェックポイントを定期的に実行することも役立ちます。これらは、トレーニング中の障害回復に不可欠であるだけでなく、トレーニング後の研究にも役立ちます。これらのチェックポイントにより、後続の研究者はトレーニングを最初から開始することなく、複数の開始点からモデルのトレーニングを継続できるため、再現と詳細な研究が容易になります。

4. パフォーマンス指標

LLM のトレーニングには数週間から数か月かかることが多く、トレーニング中の進化の傾向から貴重な情報を得ることができます。しかし、トレーニングの詳細なログや中間メトリクスは現在、それを経験した人しか利用できないため、LLMに関する包括的な研究を妨げています。これらの統計には、検出が難しい重要な洞察が含まれていることがよくあります。これらの指標に対して分散計算を実行するなどの単純な分析でも、重要な結果が明らかになることがあります。たとえば、GLM 研究チームは、勾配ノルムの動作を分析することで、損失スパイクと NaN 損失を効果的に処理する勾配縮小アルゴリズムを提案しました。

アンバー

AMBER は LLM360「ファミリー」の最初のメンバーであり、その微調整されたバージョンである AMBERCHAT と AMBERSAFE も同時にリリースされました。

データとモデルの詳細

表 2 には、1.26 T トークンを含む AMBER 事前トレーニングデータセットの詳細 (データの前処理、形式、データ混合比、AMBER アーキテクチャの詳細、特定の事前トレーニングハイパーパラメータなど) がリストされています。詳細については、プロジェクトホームページの LLM360 コードリポジトリを参照してください。

AMBER は LLaMA 7B4 と一致するモデルアーキテクチャを採用しています。表 3 は LLM の詳細なアーキテクチャ構成をまとめたものです。

事前トレーニングプロセスとハイパーパラメータに関しては、研究者は LLaMA の事前トレーニングハイパーパラメータに可能な限り従いました。 AMBER は、ハイパーパラメータ β₁ = 0.9、β₂ = 0.95 を持つ AdamW オプティマイザーを使用してトレーニングされます。同時に、研究者らは AMBER の微調整されたバージョンである AMBERCHAT と AMBERSAFE もいくつかリリースしました。 AMBERCHAT は、WizardLM の指示トレーニングデータセットに基づいて微調整されています。パラメータの詳細については、原文をお読みください。

実験と結果

研究者らは、Open LLM リーダーボード上の 4 つのベンチマークデータセットを使用して AMBER のパフォーマンスを評価しました。図 4 に示すように、HellaSwag と ARC では、事前トレーニング中に AMBER のスコアは単調に増加しますが、トレーニングが進むにつれて TruthfulQA のスコアは減少します。 MMLU データセットでは、AMBER のスコアは事前トレーニングの初期段階で低下し、その後増加し始めます。

表 4 では、研究者らが AMBER モデルのパフォーマンスを、OpenLLaMA、RedPajama-INCITE、Falcon、MPT などの同様の期間にトレーニングされたモデルと比較しました。多くのモデルは LLaMA からインスピレーションを得ました。 AMBER は MMLU では良いスコアを獲得しますが、ARC ではわずかに悪いパフォーマンスを示すことがわかります。 AMBER は、他の同様のモデルと比較して、比較的優れたパフォーマンスを発揮します。

クリスタルコーダー

LLM360「ファミリー」の 2 番目のメンバーは CrystalCoder です。

CrystalCoder は、1.4 T トークンでトレーニングされた 7B 言語モデルであり、コーディングと言語機能のバランスを実現します。これまでのほとんどのコード LLM とは異なり、CrystalCoder は、テキストとコードデータを慎重に組み合わせてトレーニングされ、両方のドメインでの有用性を最大限に高めます。 Code Llama 2 と比較すると、CrystalCoder のコードデータは事前トレーニングプロセスの早い段階で導入されます。さらに、研究者らはプログラミングアシスタントとしての実用性を向上させるために、CrystalCoder を Python と Web プログラミング言語でトレーニングしました。

モデルアーキテクチャ

CrystalCoder は、最大更新パラメータ化 (muP) を追加した、LLaMA 7B と非常によく似たアーキテクチャを使用します。この特定のパラメータ化に加えて、研究者はいくつかの変更を加えました。さらに、CG-1 アーキテクチャは LayerNorm の効率的な計算をサポートしているため、研究者は RMSNorm の代わりに LayerNorm を使用しました。

実験と結果

図 6 に示すように、研究者は Open LLM リーダーボードの 4 つのベンチマークデータセットとエンコーディングベンチマークデータセットでモデルをベンチマークしました。

表 5 からわかるように、CrystalCoder は言語タスクとコードタスクの間で適切なバランスを実現しています。

分析360

Pythia らによる以前の研究では、モデルの中間チェックポイントを分析することでさらなる調査を実行できることが示されました。研究者たちは、LLM360 がコミュニティにとって有用な参考資料や研究リソースも提供することを期待しています。この目的のために、彼らは、モデルの特性や下流の評価結果を含む、モデルの動作に関する多面的な分析をキュレートしたリポジトリである ANALYSIS360 プロジェクトの初期バージョンをリリースしました。

一連のモデルチェックポイントを分析する例として、研究者らは LLM におけるメモ化に関する予備調査を実施しました。最近の研究では、LLM はトレーニングデータの大部分を記憶し、適切なプロンプトでそれを取得できることが示されています。このメモ化は、プライベートなトレーニングデータが漏洩するという問題があるだけでなく、トレーニングデータに繰り返しや特異性が含まれている場合に LLM のパフォーマンスを低下させます。研究者らは、トレーニング段階全体を通じてメモ化の包括的な分析を実行できるように、すべてのチェックポイントとデータを公開しました。

以下は、本論文で使用した記憶スコア法であり、長さ k のプロンプトに続く長さ l のトークンの正確さを表しています。具体的な暗記スコア設定については原文を参照してください。

図 7 は、選択された 10 個のチェックポイントのメモ化スコアの分布を示しています。

選択したチェックポイントに従ってデータチャンクをグループ化し、各チェックポイントでの各データチャンクグループのメモ化スコアを図 8 にプロットしました。 AMBER チェックポイントは、以前のデータよりも最新のデータを記憶することを発見しました。さらに、各データブロックでは、追加のトレーニング後にメモ化スコアがわずかに減少しますが、その後は増加し続けます。

図9は、記憶スコアと抽出可能なk値の観点から見たシーケンス間の相関を示しています。チェックポイント間には強い相関関係があることがわかります。

要約する

研究者らは、AMBER と CRYSTALCODER の観察結果といくつかの意味を要約しました。事前トレーニングは計算量の多い作業であり、多くの学術研究室や小規模な機関では実行できないと言われています。彼らは、LLM360 が包括的な知識を提供し、ユーザーが自分で実行しなくても LLM 事前トレーニングプロセス中に何が起こるかを理解できるようにしたいと考えています。

詳しくは原文をお読みください。

<<: 2.7B は Llama 2 70B に勝てる、Microsoft は「小さな言語モデル」を提供! 96台のA100が14日間でPhi-2を訓練し、Google Gemini nanoを圧倒

>>: GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。