NVIDIA の最も強力な汎用大型モデル Nemotron-4 が登場! 15Bが62Bに勝ち、ターゲットはA100/H100です。

最近、NVIDIA チームは、8T トークンでトレーニングされた 150 億のパラメータを持つ新しいモデル Nemotron-4 を発表しました。

Nemotron-4 は、英語、多言語、コーディングのタスクにおいて優れた性能を発揮します。

論文アドレス: https://arxiv.org/abs/2402.16819

7 つの評価ベンチマークにおいて、Nemotron-4 15B は同様のパラメータサイズのモデルと比較して優れたパフォーマンスを発揮します。

実際、このモデルは 4 倍の規模のモデルや多言語タスク専用のモデルよりも優れたパフォーマンスを発揮します。

昨今、LLM は数多く存在しますが、NVIDIA が新たにリリースした言語モデルとの違いは何でしょうか?

最強のユニバーサルLLMを作成し、単一のA100/H100で実行できます

最近発表された LLM 研究は、Chinchilla モデルの「スケーリング法則」にヒントを得たもので、計算予算が固定されている場合、データとモデルのサイズが一緒に最適化されます。

これまでの研究では、主にモデルサイズのスケーリングに焦点が当てられてきました。

この研究では、同様のデータ分布を持つ 2 つの IsoFLOP GPT モデルのうち、1 つは 1.4 兆トークンの 65 億パラメータモデルであり、もう 1 つは 3000 億トークンの 2800 億パラメータモデルであることが示されています。

明らかに、65B モデルは下流のタスクでより高い精度を発揮します。

推論の観点からは、モデルのサイズを増やすのではなく、より多くのデータのトレーニングに計算を割り当てることが特に魅力的であり、レイテンシとモデルの提供に必要な計算量を削減します。

そのため、言語モデルのトレーニング作業の主な焦点は、CommonCrawl などのパブリックリソースから高品質の 1 兆トークンデータセットを収集することに移行しました。

これに応えて、Nvidia の研究者は、この傾向を継続するために Nemotron-4 15B を提案しました。

具体的には、Nemotron-4 15B は、英語、多言語、エンコードされたテキストを含む 8 兆個のトークンでトレーニングされています。

Nvidia は、Nemotron-4 15B の開発目的を次のように述べている。

単一の NVIDIA A100 または H100 GPU で実行できる最高の「汎用大規模モデル」です。

アーキテクチャの紹介

Nemotron-4 は、因果アテンションマスクを備えた標準的なデコーダーのみの Transformer アーキテクチャを採用しています。

コアハイパーパラメータを表1に示します。

Nemotron-4 には 32 億の埋め込みパラメータと 125 億の非埋め込みパラメータがあります。

研究者らは、回転位置エンコーディング (RoPE)、SentencePiece トークナイザー、MLP レイヤーでの 2 乗 ReLU アクティベーション、バイアス項なし、ゼロドロップアウト、および制限のない入出力埋め込みを使用しました。

Grouped Query Attention (GQA) により、推論の高速化とメモリ使用量の削減が実現します。

データ

研究者らは、8兆個のトークンを含む事前トレーニングデータセットでNemotron-4 15Bをトレーニングした。

データには、英語の自然言語データ (70%)、多言語の自然言語データ (15%)、ソースコードデータ (15%) の 3 種類があります。

英語コーパスは、Web ドキュメント、ニュース記事、科学論文、書籍など、さまざまなソースとドメインから厳選されたドキュメントで構成されています。

コードと多言語データには、さまざまな自然言語とプログラミング言語が含まれます。

研究者たちは、これらの言語からトークンを適切にサンプリングすることが、これらの分野で高い精度を達成する鍵であることを発見しました。

さらに、研究者らは、図 3 と図 4 でそれぞれ事前トレーニングデータセット内のコードと多言語タグの分布を共有しています。

事前トレーニング

Nemotron-4 はトレーニングに 384 個の DGX H100 ノードを使用します。各ノードには、NVIDIA の Hopper アーキテクチャに基づく 8 つの H100 80GB SXM5 GPU が含まれています。

各 H100 GPU は、スパース性のない 16 ビット浮動小数点 (bfloat16) 演算を実行する場合、ピークスループットが 989 テラフロップス/秒になります。

各ノード内では、GPU は NVLink と NVSwitch (NVL) を介して接続されており、GPU 間の帯域幅は 900 GB/秒 (各方向 450 GB/秒) です。

各ノードには、ノード間通信用の NVIDIA Mellanox 400 Gbps HDR InfiniBand ホストチャネルアダプター (HCA) が 8 つあります。

研究者らは、8 方向テンソル並列処理とデータ並列処理を組み合わせてモデルをトレーニングし、さらに、データ並列レプリカ間でオプティマイザーの状態を分割する分散オプティマイザーも使用しました。バッチサイズが大きくなるにつれて、データの並列性は 96 から 384 に増加します。

表 2 は、反復あたりの時間とモデル FLOP/s 使用率 (MFU) を含む、バッチサイズの増加の 3 つの段階をまとめたものです。 MFU は、モデルトレーニングにおける GPU 使用効率を定量化します。研修は約13日間で完了しました。

再訓練

最近の研究と同様に、研究者らは、モデルトレーニングの最後にデータ分布と学習率の減衰スケジュールを切り替えることで、モデルの品質が大幅に向上することを発見しました。

具体的には、8T の事前トレーニングデータセット全体でトレーニングした後、同じ損失目標を使用し、事前トレーニングトークンと比較して少ないトークンでトレーニングを続けます。

この追加の継続トレーニングフェーズでは、2 つの異なるデータ分布が使用されます。

最初の分布は、継続的なトレーニング中にほとんどのトークンをサンプリングする分布です。事前トレーニング中にすでに導入されたトークンを活用しますが、その配布により、より高品質のソースにサンプリングの重みが大きくなります。

2 番目のディストリビューションでは、ベンチマークスタイルのアライメント例を少数導入して、モデルが下流の評価でこのような質問に適切に答えられるようにするとともに、モデルのパフォーマンスが低い領域からのデータソースの重みを増やします。

実験結果

研究者らは、さまざまなタスクとドメインをカバーする下流の評価領域で Nemotron-4 15B を評価しました。

常識的な推論

著者らは、LM 評価ハーネスを使用して、上記のすべてのタスクで Nemotron-4 15B を評価しました。

表 3 は、Nemotron-4 15B がこの多様なタスク全体にわたって最も優れた平均パフォーマンスを達成していることを示しています。

人気の合成ベンチマーク

表 4 からわかるように、Nemotron-4 15B は、既存のモデルの中で BBH のスコアが約 7% 増加し、最高のスコアを獲得しました。

さらに、Nemotron-4 は BBH ベンチマークで LLaMA-2 70B モデルを大幅に上回り、LLaMA-2 70B のスコアは 51.2 で、Nemotron-4 のスコアは 58.7 です。

さらに、Nemotron-4 15B は非常に競争力のある MMLU スコアを達成しました。

数学とコード

表 5 は、数学タスクとコードタスクにおける Nemotron-4 15B のパフォーマンスを示しています。

具体的には、数学的推論において、Nemotron-4 15B は Gemma 7B と同等のスコアで優れたパフォーマンスを発揮しましたが、Baichuan-2 や QWEN などのモデルに遅れをとりました。

コードタスクでは、Nemotron-4 のパフォーマンスは QWEN 14B に匹敵しましたが、Gemma 7B よりわずかに劣っていました。

どちらのタイプのミッションでも、Nemotron-4 15B は Mistral 7B および LlaMA-213B/34B よりも優れた性能を発揮しました。

同様の規模のオープンモデルのほとんどは、Python 関連のタスクのパフォーマンスのみに基づいてコード能力を判断し、他のプログラミング言語の能力を評価することを無視しています。

表 6 に、11 種類のプログラミング言語を対象とした Multiple-E ベンチマークにおける Nemotron-4 15B の結果を示します。

結果によると、Nemotron-4 15B はさまざまなプログラミング言語で強力なエンコードパフォーマンスを発揮し、平均パフォーマンスは Starcoder や Mistral 7B よりも優れています。

研究者らは特に、Scala、Julia、Rなどの低リソースプログラミング言語におけるNemotron-4 15Bの優れたパフォーマンスを強調しました。

多言語

分類

表 7 では、Nemotron-4 がすべてのモデルの中で最高のパフォーマンスを達成し、4 つの設定で約 12% の改善を達成していることが明確にわかります。

生成する

表 8 は、Nemotron-4 15B が最高のパフォーマンスを達成したことを示しています。

驚くべきことに、Nemotron-4 15B は、次に優れたモデルである PaLM 62B-cont を大幅に改善することができました。

表 9 は MGSM でのパフォーマンスを示しており、Nemotron-4 15B の優れた多言語機能がさらに実証されています。

数学と多言語能力の交差点を評価するこの難しいタスクにおいて、Nemotron-4 15B は比較対象モデルの中で最高のパフォーマンスを達成し、最も近いスコアを 30% 近く上回りました。

機械翻訳

表10に示すように、Nemotron-4 15Bの性能はLLaMA-2 13BやBaichuan-2 13Bよりもはるかに優れており、それぞれ90.2%と44.1%の性能向上が見られます。

Nemotron-4 15B は、中国語から英語への翻訳に優れた性能を発揮するだけでなく、中国語から他の言語への直接翻訳でも優れた結果を実現します。

この機能は、Nemotron-4 15B が幅広い自然言語を深く理解していることを強調しています。

<<: 数行のコードでUNetが安定！中山大学などが提案したScaleLong拡散モデル：スケーリングへの疑問からスケーリングへ

>>: 世界を創ろう！ Appleの株主総会から史上最強のAIシグナル！ CEOクックがついにGenAIに正式に宣戦布告。2024年に未来を再定義する大作製品とは？

インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

NVIDIA の最も強力な汎用大型モデル Nemotron-4 が登場! 15Bが62Bに勝ち、ターゲットはA100/H100です。

最強のユニバーサルLLMを作成し、単一のA100/H100で実行できます

アーキテクチャの紹介

実験結果

多言語

インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。

AIからドローンまで: 4Gと5Gが未来の工場をどう変えるのか

データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要

デザイナーのための人工知能ガイド: 基本概念

グラフを考慮した対照学習により多変量時系列分類が改善

シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

AIの大覚醒：チューリング賞受賞者のベンジオ氏は、AIは意識を持ち、将来の機械学習の核となるのは注意メカニズムであると語る

バーチャルアイドル＋人工知能＋ブロックチェーン、スターを追いかける新しい方法が誕生！

これらのよく知られた VR 音声テクノロジーソリューションをご存知ですか?

推薦する

ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

呼吸の落ち込みはWiFi信号で検知できます！北京大学のハードテクノロジー研究はますます隠蔽が困難になっている

一度に35万字の漢字を読める世界最強の長文モデル「Baichuan2-192K」がオンラインに

都市 AI アプリケーションの失敗事例: 善意の自治体 AI プロジェクトはなぜ失敗したのか?

これらの6つのヒントを活用してAIガバナンスの問題を解決しましょう

AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

世界シミュレーターはAGIの最終成果、12の状況予測です！チーフエキスパートによる1万語の記事がソラのマイルストーンを専門的に解釈

個人情報を使って死者をデジタルで蘇らせるロボットを作る

Nvidia に挑戦する Groq の起源は何ですか?新しいAIチップLPUの簡単な紹介

はるか先へ！ BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

20年後にはロボットが手術を行えるようになる

デジタルトランスフォーメーションとは、アルゴリズムがすべてを制御する仮想世界なのでしょうか?

通信ネットワーク運用イベントのナレッジグラフの構築

最初の失業中の人工知能ロボット

AIと機械学習の統合アーキテクチャ：インテリジェントな意思決定を可能にする