Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チューリング賞受賞者のヤン・ルカン氏も、次のように感想を述べています。「オープンソースの AI モデルは、独自のモデルを超えつつあります。」

独自モデルは、技術的なパフォーマンスとイノベーション能力の点で並外れた力を発揮してきましたが、そのクローズドソースの性質が LLM の開発の障害となっています。一部のオープンソース モデルは、実務家や研究者に多様な選択肢を提供していますが、そのほとんどは最終的なモデルの重みまたは推論コードのみを公開しており、その範囲をトップレベルの設計と表面統計に限定する技術レポートが増えています。このクローズドソース戦略は、オープンソースモデルの開発を制限するだけでなく、LLM 研究分野全体の進歩を大きく妨げます。

つまり、トレーニング データの詳細、アルゴリズムの詳細、実装の課題、パフォーマンス評価など、これらのモデルをより完全かつ詳細に共有する必要があるということです。

Cerebras、Petuum、MBZUAIなどの研究者が共同でLLM360を提案しました。これは、LLM を完全にオープンソース化する取り組みであり、トレーニング コードとデータ、モデル チェックポイント、中間結果など、LLM トレーニングに関連するすべてをコミュニティに提供することを提唱しています。 LLM360 の目標は、LLM トレーニング プロセスを誰にとっても透明かつ再現可能にし、オープンで協調的な AI 研究の発展を促進することです。


  • 論文アドレス: https://arxiv.org/pdf/2312.06550.pdf
  • プロジェクトウェブサイト: https://www.llm360.ai/
  • ブログ: https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

研究者たちは、LLM360 アーキテクチャを、その設計原理とそれを完全にオープンソースにする根拠に重点を置いて開発しました。これらは、データセット、コードと構成、モデルチェックポイント、メトリック、その他の具体的な詳細など、LLM360 フレームワークのコンポーネントを詳細に指定します。 LLM360 は、現在および将来のオープンソース モデルの透明性の例を示します。

研究者らは、LLM360 のオープンソース フレームワークの下でゼロから事前トレーニングされた 2 つの大規模言語モデル、AMBER と CRYSTALCODER をリリースしました。 AMBER は、1.3T トークンで事前トレーニングされた 70 億の英語言語モデルです。 CRYSTALCODER は、1.4T トークンで事前トレーニングされた 7B の英語およびコード言語モデルです。この論文では、研究者らは 2 つのモデルの開発の詳細、予備的な評価結果、観察結果、および得られた教訓をまとめています。リリース時点では、AMBER と CRYSTALCODER はトレーニング中にそれぞれ 360 個と 143 個のモデル チェックポイントを保存することは注目に値します。

次に、記事の具体的な内容を見ていきましょう。

LLM360 フレームワーク

LLM360 は、LLM 事前トレーニング プロセス中に収集する必要があるデータとコードの標準を提供し、既存の作業をコミュニティ内でより適切に循環および共有できるようにします。主に以下の部分が含まれます。

1. トレーニングデータセットとデータ処理コード

事前トレーニング データセットは、大規模言語モデルのパフォーマンスにとって非常に重要です。したがって、潜在的な行動上の問題やバイアスを評価するには、事前トレーニング データセットを理解することが重要です。さらに、公開されている事前トレーニング データセットは、その後の微調整やさまざまな分野への適応において LLM のスケーラビリティを向上させるのに役立ちます。最近の研究では、重複データでトレーニングすると、モデルの最終的なパフォーマンスが不釣り合いに低下する可能性があることが示されています。したがって、元の事前トレーニングデータを公開すると、下流を微調整したり、特定のドメインで事前トレーニングを継続したりするときに、重複したデータを使用することを回避できます。上記の理由から、LLM360 は大規模言語モデルのオリジナル データセットを公開することを提唱しています。適切な場合には、データのフィルタリング、処理、トレーニングシーケンスに関する詳細な情報も開示する必要があります。

2. トレーニングコード、ハイパーパラメータ、構成

トレーニング コード、ハイパーパラメータ、および構成は、LLM トレーニングのパフォーマンスと品質に大きな影響を与えますが、必ずしも公開されるわけではありません。 LLM360 では、研究者は事前トレーニング フレームワークのすべてのトレーニング コード、トレーニング パラメーター、システム構成をオープンソース化しています。

3. モデルチェックポイント

モデルのチェックポイントを定期的に実行することも役立ちます。これらは、トレーニング中の障害回復に不可欠であるだけでなく、トレーニング後の研究にも役立ちます。これらのチェックポイントにより、後続の研究者はトレーニングを最初から開始することなく、複数の開始点からモデルのトレーニングを継続できるため、再現と詳細な研究が容易になります。

4. パフォーマンス指標

LLM のトレーニングには数週間から数か月かかることが多く、トレーニング中の進化の傾向から貴重な情報を得ることができます。しかし、トレーニングの詳細なログや中間メトリクスは現在、それを経験した人しか利用できないため、LLMに関する包括的な研究を妨げています。これらの統計には、検出が難しい重要な洞察が含まれていることがよくあります。これらの指標に対して分散計算を実行するなどの単純な分析でも、重要な結果が明らかになることがあります。たとえば、GLM 研究チームは、勾配ノルムの動作を分析することで、損失スパイクと Na​​N 損失を効果的に処理する勾配縮小アルゴリズムを提案しました。

アンバー

AMBER は LLM360「ファミリー」の最初のメンバーであり、その微調整されたバージョンである AMBERCHAT と AMBERSAFE も同時にリリースされました。

データとモデルの詳細

表 2 には、1.26 T トークンを含む AMBER 事前トレーニング データセットの詳細 (データの前処理、形式、データ混合比、AMBER アーキテクチャの詳細、特定の事前トレーニング ハイパーパラメータなど) がリストされています。詳細については、プロジェクトホームページの LLM360 コード リポジトリを参照してください。

AMBER は LLaMA 7B4 と一致するモデル アーキテクチャを採用しています。表 3 は LLM の詳細なアーキテクチャ構成をまとめたものです。

事前トレーニングプロセスとハイパーパラメータに関しては、研究者は LLaMA の事前トレーニングハイパーパラメータに可能な限り従いました。 AMBER は、ハイパーパラメータ β₁ = 0.9、β₂ = 0.95 を持つ AdamW オプティマイザーを使用してトレーニングされます。同時に、研究者らは AMBER の微調整されたバージョンである AMBERCHAT と AMBERSAFE もいくつかリリースしました。 AMBERCHAT は、WizardLM の指示トレーニング データセットに基づいて微調整されています。パラメータの詳細については、原文をお読みください。

実験と結果

研究者らは、Open LLM リーダーボード上の 4 つのベンチマーク データセットを使用して AMBER のパフォーマンスを評価しました。図 4 に示すように、HellaSwag と ARC では、事前トレーニング中に AMBER のスコアは単調に増加しますが、トレーニングが進むにつれて TruthfulQA のスコアは減少します。 MMLU データセットでは、AMBER のスコアは事前トレーニングの初期段階で低下し、その後増加し始めます。

表 4 では、研究者らが AMBER モデルのパフォーマンスを、OpenLLaMA、RedPajama-INCITE、Falcon、MPT などの同様の期間にトレーニングされたモデルと比較しました。多くのモデルは LLaMA からインスピレーションを得ました。 AMBER は MMLU では良いスコアを獲得しますが、ARC ではわずかに悪いパフォーマンスを示すことがわかります。 AMBER は、他の同様のモデルと比較して、比較的優れたパフォーマンスを発揮します。

クリスタルコーダー

LLM360「ファミリー」の 2 番目のメンバーは CrystalCoder です。

CrystalCoder は、1.4 T トークンでトレーニングされた 7B 言語モデルであり、コーディングと言語機能のバランスを実現します。これまでのほとんどのコード LLM とは異なり、CrystalCoder は、テキストとコード データを慎重に組み合わせてトレーニングされ、両方のドメインでの有用性を最大限に高めます。 Code Llama 2 と比較すると、CrystalCoder のコード データは事前​​トレーニング プロセスの早い段階で導入されます。さらに、研究者らはプログラミングアシスタントとしての実用性を向上させるために、CrystalCoder を Python と Web プログラミング言語でトレーニングしました。

モデルアーキテクチャ

CrystalCoder は、最大更新パラメータ化 (muP) を追加した、LLaMA 7B と非常によく似たアーキテクチャを使用します。この特定のパラメータ化に加えて、研究者はいくつかの変更を加えました。さらに、CG-1 アーキテクチャは LayerNorm の効率的な計算をサポートしているため、研究者は RMSNorm の代わりに LayerNorm を使用しました。

実験と結果

図 6 に示すように、研究者は Open LLM リーダーボードの 4 つのベンチマーク データセットとエンコーディング ベンチマーク データセットでモデルをベンチマークしました。

表 5 からわかるように、CrystalCoder は言語タスクとコード タスクの間で適切なバランスを実現しています。

分析360

Pythia らによる以前の研究では、モデルの中間チェックポイントを分析することでさらなる調査を実行できることが示されました。研究者たちは、LLM360 がコミュニティにとって有用な参考資料や研究リソースも提供することを期待しています。この目的のために、彼らは、モデルの特性や下流の評価結果を含む、モデルの動作に関する多面的な分析をキュレートしたリポジトリである ANALYSIS360 プロジェクトの初期バージョンをリリースしました。

一連のモデルチェックポイントを分析する例として、研究者らは LLM におけるメモ化に関する予備調査を実施しました。最近の研究では、LLM はトレーニング データの大部分を記憶し、適切なプロンプトでそれを取得できることが示されています。このメモ化は、プライベートなトレーニング データが漏洩するという問題があるだけでなく、トレーニング データに繰り返しや特異性が含まれている場合に LLM のパフォーマンスを低下させます。研究者らは、トレーニング段階全体を通じてメモ化の包括的な分析を実行できるように、すべてのチェックポイントとデータを公開しました。

以下は、本論文で使用した記憶スコア法であり、長さ k のプロンプトに続く長さ l のトークンの正確さを表しています。具体的な暗記スコア設定については原文を参照してください。

図 7 は、選択された 10 個のチェックポイントのメモ化スコアの分布を示しています。

選択したチェックポイントに従ってデータ チャンクをグループ化し、各チェックポイントでの各データ チャンク グループのメモ化スコアを図 8 にプロットしました。 AMBER チェックポイントは、以前のデータよりも最新のデータを記憶することを発見しました。さらに、各データ ブロックでは、追加のトレーニング後にメモ化スコアがわずかに減少しますが、その後は増加し続けます。

図9は、記憶スコアと抽出可能なk値の観点から見たシーケンス間の相関を示しています。チェックポイント間には強い相関関係があることがわかります。

要約する

研究者らは、AMBER と CRYSTALCODER の観察結果といくつかの意味を要約しました。事前トレーニングは計算量の多い作業であり、多くの学術研究室や小規模な機関では実行できないと言われています。彼らは、LLM360 が包括的な知識を提供し、ユーザーが自分で実行しなくても LLM 事前トレーニング プロセス中に何が起こるかを理解できるようにしたいと考えています。

詳しくは原文をお読みください。

<<:  2.7B は Llama 2 70B に勝てる、Microsoft は「小さな言語モデル」を提供! 96台のA100が14日間でPhi-2を訓練し、Google Gemini nanoを圧倒

>>:  GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

ブログ    
ブログ    
ブログ    

推薦する

人工知能が建設業界にもたらす変化

[[349273]] AI は情報を活用して、プロジェクトの初期段階で建築家にとって重要な決定を下し...

大学受験出願関連アプリは会員料金が高く、AIアプリは信頼できない

6月26日のニュース:大学入試願書の記入は毎年大学入試後の重要なステップであり、受験生や保護者が最も...

ディスカッション | 人工知能は同時通訳に取って代わることができるか?

[[254687]]少し前に同時通訳者がiFlytekを「AI同時通訳詐欺」と非難し、ネット上で騒...

人工知能チュートリアル(IV):確率論入門

このシリーズの前回の記事では、行列と線形代数についてさらに詳しく説明し、JupyterLab を使用...

AIと遊ぶ4つの簡単な方法

適切なプロンプトを作成する技術を習得することが、ChatGPT のような AI ベースのプロンプト ...

プログラム分析を通じてニューラルネットワーク プログラムのバックドアを見つける方法

1 ニューラルネットワークにはさまざまな問題がある従来のプログラムには、よく知られたエラー、抜け穴、...

自然言語処理に加えて、単語埋め込み(Word2Vec)を使用してこれを行うこともできます。

機械学習の手法を使用して問題を解決する場合、適切なデータを持つことが重要です。残念ながら、生データは...

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...

Google、医療従事者が情報を素早く見つけられるようにAI検索機能を開始

10月10日、海外メディアの報道によると、Google Cloudは最近、医療従事者がさまざまな種類...

ゼロから学ぶPythonによるディープラーニング!

人工知能は現在、飛躍的に成長しています。たとえば、自動運転車は時速数百万マイルで走行し、IBM Wa...

...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

...

LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない!それは言語モデルによって供給されるだけである

チューリング・ビッグスリーの一人であるルカン氏は昨日、もう一つの名言を残した。 「知能の面では、Ch...