この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 5300億のパラメータ!世界最大のNLPモデルが誕生しました。 これはMicrosoft と NVIDIAによって立ち上げられ、 Megatron Turing-NLG と呼ばれています。 彼らによれば、この規模は世界最大であるだけでなく、最も強力な NLP モデルにもなります。 トレーニング プロセスでは合計4,480 個の NVIDIA A100 GPU が使用され、最終的に、テキスト予測、読解、常識的推論、自然言語推論、語義の曖昧さ解消など、さまざまな自然言語タスクでモデルが前例のない精度を達成できるようになりました。 GPT-3の3倍の大きさこのモデルは MT-NLG と呼ばれ、Microsoft Turing NLGと Nvidia Megatron-LMの「後継」となります。 Turing NLG は、2020 年 2 月に 170 億のパラメータで Microsoft によってリリースされました。Megatron-LM は NVIDIA によって提供され、2019 年 8 月に 83 億のパラメータでリリースされました。 これらは、当時、最初と 2 番目に大きい Transformer アーキテクチャ モデルでした。 パラメータ サイズが大きい言語モデルの方が効果的であることは誰もが知っていますが、次のような言語モデルのトレーニングも困難です。
では、MT-NLG のパラメータが GPT-3 の 3 倍である場合、MT-NLG はこの問題をどのように解決するのでしょうか? その答えは、両社の強みを生かし、NVIDIA の最先端の GPU アクセラレーション トレーニング機器と Microsoft の最先端の分散学習システムを統合して、トレーニング速度を向上させることです。 また、数千億のトークンを含むコーパスを構築し、効率性と安定性を最適化するためのトレーニング方法を共同で開発しました。 具体的には、NVIDIA の Megatron-LM モデルの GPU 並列処理と Microsoft のオープンソース分散トレーニング フレームワーク DeepSpeed を活用して、3D 並列システムが作成されました。 この記事の 5,300 億パラメータ モデルの場合、各モデル レプリカは 280 個の NVIDIA A100 GPU にまたがり、ノード内では Megatron-LM の 8 方向テンソル スライスを使用し、ノード間では 35 方向パイプライン並列処理を使用します。 次に、DeepSpeed のデータ並列処理を使用して、さらに数千の GPU に拡張します。 最後に、NVIDIA DGX SuperPOD をベースにした Selene スーパーコンピューターで混合精度トレーニングが完了しました。 (このスーパーコンピューターは560 台の DGX A100サーバーで稼働しており、各サーバーには8 基のNVIDIA A100 80GB Tensor Core GPU が搭載され、NVLink と NVSwitch を介して完全に相互接続されています。) このモデルは、105 層、20480 個の隠し次元、128 個のアテンション ヘッドを備えた Transformer デコーダー アーキテクチャを使用します。 トレーニングに使用されたデータセットには、約 20 万冊の書籍のプレーンテキストデータセット Books3、質疑応答 Web サイトの Stack Exchange、Wikipedia、学術リソース Web サイトの PubMed Abstracts、ArXiv、Wikipedia、GitHub などが含まれます。これらはすべて、以前に構築された Pile データ セットから選択された高品質のサブセットです。 最終的に合計2,700億トークンが引き出されました。 5つのタスクの精度テスト開発者は、次の 5 つのタスクで MT-NLG の精度をテストしました。
その結果、モデルは PiQA 開発セットと LAMBADA テスト セットのゼロ ショット、ワン ショット、および少数ショットの設定で最高の結果を達成しました。 他のタスクでも最高の結果を獲得しました。 ベンチマーク タスクの概要メトリックを報告することに加えて、モデル出力の定性分析も提供し、シンボルが高度に難読化されている場合でも、モデルがコンテキストから基本的な数学演算を推測できることを観察します。 もちろん、モデルはデータからステレオタイプや偏見も抽出します。マイクロソフトとNVIDIAもこの問題に取り組んでいると述べた。 さらに、生産シナリオでの MT-NLG の使用は、出力コンテンツの悪影響を軽減するために Microsoft の「責任ある AI 原則」に準拠する必要があると述べていますが、モデルはまだ公開されていません。 |
<<: ディープラーニングは物理システムのシミュレーションを変え、速度を最大20億倍に高めている。
>>: 人工知能は商業用不動産にどのような影響を与えるでしょうか?
数万人の従業員を抱える大企業にとって、従業員の払い戻しに関する内部監査の難しさは想像に難くありません...
21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...
[[280714]]人工知能は世界に大きな影響を与えます。 2025年までに、AIソフトウェアの総...
[[443279]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
[[333414]]機械学習における「アルゴリズム」とは何ですか?機械学習における「アルゴリズム」と...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...
[[253050]]コンセンサス プロトコルに関する議論でガバナンスがより一般的になるにつれ、サトシ...
共通のデータ構造とアルゴリズム最も基本的なデータ構造とアルゴリズムは次のとおりです。ソートアルゴリズ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[267669]] [51CTO.com 速訳] 人工知能(AI)と機械学習(ML)は、この時代の...
企業は GenAI をビジネスに適用しようとすると、多くの抵抗と予想外の変更管理の問題に直面します。...