ByteDanceが大規模モデルトレーニングフレームワークveGiantModelをオープンソース化、パフォーマンスが最大6.9倍向上

ByteDanceが大規模モデルトレーニングフレームワークveGiantModelをオープンソース化、パフォーマンスが最大6.9倍向上

最近、ByteDanceの応用機械学習チームは、veGiantModelという大規模モデルトレーニングフレームワークをオープンソース化しました。このトレーニングフレームワークは、主に自然言語処理分野の大規模モデルトレーニングに使用され、大規模モデルトレーニングのパフォーマンスを最大6.9倍向上させ、トレーニングシステムへの負荷を大幅に軽減します。現在、ByteDance 傘下のエンタープライズ レベルのテクノロジー サービス プラットフォームである Volcano Engine は、パブリック ベータ版である機械学習プラットフォームで veGiantModel をネイティブにサポートしています。

自然言語処理は、コンピューターが人間の言語を理解、解釈、使用できるようにすることを目的とした人工知能研究の重要な分野です。近年、自然言語処理は、主に BERT、GPT、GPT-3 などの事前トレーニング済み言語モデルの普及により、アプリケーションにおいて大きな進歩を遂げました。事前学習済みの言語モデルは、人工知能の分野ではインフラとなっていると言えます。大規模モデルの方がアルゴリズムのパフォーマンスが優れているため、事前トレーニング済みの言語モデルは近年、大規模モデルへの急速な傾向を示しています。しかし、モデル サイズの急速な増加は、主にメモリの圧力、コンピューティングの圧力、および通信の圧力に反映され、既存のトレーニング システムにかなりの課題をもたらしました。

大規模モデルのトレーニング シナリオにおいて既存のトレーニング システムが直面する上記の課題に対応するため、ByteDance の応用機械学習チームは、大規模モデル トレーニング フレームワーク veGiantModel を提案しました。

veGiantModel の中国語名は Volcano Engine Large Model Training Framework です。これは、オープンソースのディープラーニング フレームワーク PyTorch をベースにした高性能な大規模モデル トレーニング フレームワークであり、2 つの主要なオープンソースの主流トレーニング フレームワークである Megatron と DeepSpeed を基盤として構築されています。

veGiantModel は、データ並列、演算子分割、パイプライン並列の 3 つの分散並列戦略を同時にサポートでき、自動化およびカスタマイズされた並列戦略をサポートします。Byte が開発した高性能非同期通信ライブラリである ByteCCL に基づいて、veGiantModel のトレーニング タスク スループットは、他の主流のオープン ソース フレームワークよりも 1.2 ~ 3.5 倍高く、より使いやすく柔軟なパイプライン サポートを提供し、モデル開発と反復に必要な人員を削減します。さらに、veGiantModel は、数十億から数千億のパラメーターを持つ大規模なモデルを GPU 上で効率的にサポートでき、ネットワーク帯域幅の要件が低く、プライベートに展開する場合に RDMA に大きく依存しません。

MegtraonとDeepSpeedとの比較テストでは、veGiantModelが最も優れたパフォーマンスを発揮し、ネットワーク帯域幅の影響が最も少ないことが示されました。Tesla V100では上記2つよりも1.2~3.5倍、Ampere A100では最大6.9倍のパフォーマンス向上が見られました。


veGiantModel オープンソースアドレス:

https://github.com/volcengine/veGiantModel

Volcano Engine 機械学習プラットフォーム パブリックベータ アドレス:

​​https://www.volcengine.com/product/ml-platform​​


<<:  自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

>>:  ロボットをもっと速く走らせたい?人工知能で制御しよう

ブログ    
ブログ    
ブログ    

推薦する

顔認識技術のまとめ:従来の方法からディープラーニングまで

1970 年代以来、顔認識はコンピューター ビジョンと生体認証の分野で最も研究されているトピックの ...

OpenAIの創設者サム・アルトマンが解雇されてから24時間後

ChatGPTを開発するOpenAIは金曜日、CEO兼創設者のサム・アルトマン氏を解雇したが、彼の突...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

...

...

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

...

清華大学・黄敏烈氏:GoogleのAI人格は本当に目覚めたのか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIが「テクノロジー冬季オリンピック」を支援、UBTECHロボティクスが氷と雪の世界に進出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

予想外だが妥当: ガートナーの 2020 年データ サイエンスおよび機械学習プラットフォームのマジック クアドラントの解釈

最近、ガートナーはデータ サイエンスおよび機械学習 (DSML) プラットフォームに関するマジック ...

不確実な環境での自動運転の軌道計画を改善するにはどうすればよいでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

RLHF の欠陥が完全に明らかに! MIT、ハーバード大学、その他32名の学者が共同で発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

最新の軌道予測の概要:基本的な定義からさまざまな方法と評価まで

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

メタバース技術は人間とコンピュータの相互作用の効率を向上させることができるか?

1. メタバースとは何ですか? Metaverse は、ブロックチェーンと AI (人工知能)、V...

技術革命: 人工知能の最新動向

2023年も人工知能技術の進歩は止まることなく続くでしょう。医療から交通まで、人工知能の進歩はさまざ...