512 個の GPU が 10 兆個のパラメータを持つ巨大モデルを作成します。このモデルは今年のダブルイレブンで使用されました

512 個の GPU が 10 兆個のパラメータを持つ巨大モデルを作成します。このモデルは今年のダブルイレブンで使用されました

[[434190]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

超大規模事前学習済みモデルのパラメータ数がまたもや爆発的に増加!

10000億

(はい、10兆)

そして、 512 個のGPU を使用して 10 日間トレーニングされました。

[[434191]]

これはDAMOアカデミーが発表した最新の超大規模汎用人工知能モデル、 M6-10Tです。

電子商取引、製造、文学芸術、科学研究などの分野でマルチモーダルおよびマルチタスク機能を備えており、それぞれの現実のシナリオの下流タスクに頻繁に登場します。

さらに、箱から出してすぐに使用できるので、今年のダブルイレブンでは M6-10T を携えていられます。

少ないリソースで大規模モデルを高速にトレーニング

しかし、ショッピング フェスティバルについては今は脇に置いておきましょう。重要な質問は、M6-10T がどのようにして少量のリソースのみを使用して、超大規模モデルのトレーニングを完了するかということです。

マイクロソフトの以前のDeepSpeed MoEモデルも、3.5兆個のパラメータのトレーニングを完了するために512個のA100を使用していたことを知っておく必要があります。

同社が5か月前に発売した兆レベルのパラメータを備えたM6は、480個のGPUを使用してトレーニングされた。

では、512 個の GPU がどのようにして 10 兆個のパラメータを保持できるのでしょうか?

ここで、DAMO アカデミーによって開発された分散フレームワークである Whale について説明します。

このフレームワークに基づいて、M6 モデルは、きめ細かく制御可能な CPU オフロード方式を使用し、オフロードするモデル レイヤーを柔軟に選択できます。

つまり、すべての重みを CPU メモリにオフロードする代わりに、一部の重みを GPU メモリに保持して計算することで、GPU の使用率をさらに向上させることができます。

パラメータを設定したら、次のステップはトレーニング効率を向上させることです。

M6-10T モデルは、Pseudo-to-Real と呼ばれる新しいトレーニング戦略を使用します。

この戦略は 2 つのフェーズで構成されます。

最初の段階では、クロスレイヤー パラメータ共有メカニズムを使用して、小さなモデル Pseudo Giant を迅速に構築およびトレーニングします。

パラメータがはるかに少ない Pseudo Giant はメモリに制限されないため、大規模なバッチでトレーニングすることで高速化できます。

エキスパートの分割およびマージ メカニズムと組み合わせると、擬似巨人を迅速にトレーニングするために必要な GPU は 256 個だけです。

第 2 段階では、共有パラメータの接続が解除され、新しい Real Giant モデルが取得されます。

「共有」フェーズでトレーニングされたモデル レイヤーのパラメーターは、R​​eal Giant の各レイヤーの初期化を提供し、トレーニングされた小さなモデルに基づいて大きなモデルを継続的に最適化できます。

下流の評価では、Real Giant モデルを最初からトレーニングするのは非常に時間がかかりますが、Pseudo Giant トレーニングの収束速度は Real Giant トレーニングの約 5 倍高速であることがわかります。

△48台のNVIDIA V100 GPUデバイスでトレーニング

このメカニズムにより、M6-10T はサンプル サイズの点でより速く収束できるだけでなく、モデルのトレーニング速度も 7 倍以上向上します。

以前の M6-MoE および M6-T と比較すると、新しいトレーニング戦略を採用した M60-10T は、困惑度が低く、モデルが優れています。

これまで 480 個の GPU を使用していた 1 兆パラメータ モデル M6 も、現在の方法を使用すれば、トレーニングを完了するのに 64 個の GPU しか必要なくなると言えます。

ダブルイレブンのモデル

M6-10T は、アルゴリズム レベルでの価値に加え、発売後すぐに使用を開始できます。

たとえば、来たるダブルイレブンでは、AI がデザインした服が店頭に並ぶことになるかもしれません。

△M6デザインを元に生成された服装スタイル

それは、大きなモデルがもたらす創造性です。

StyleGAN と組み合わせると、M6 は優れた詳細品質と編集性を維持しながら、サンプル数が少ない画像を自動的に生成できます。

また、従来のデザインスタイルの写真とは異なり、M6 によって生成された写真は実際のオブジェクトに近くなります。

Taobao および Alipay モバイル アプリでは、M6 インテリジェンスに基づいて生成されたコンテンツ コピーも表示されます。

同時に、大規模モデルのマルチモーダル特徴抽出機能は、認知的想起のための製品属性ラベルを補完することもできます。

アリババの40を超える事業チームの背後には、M6モデルのさまざまなバージョンに基づいたサービス指向のプラットフォームがあると言えます。

電子商取引分野以外にも、金融、産業、伝統科学など、応用分野は数多くあります。

現在、M6サービス指向プラットフォームは、業界で最も広範な大規模モデルエコシステムをカバーするサービス指向プラットフォームとなっています。

では、今後もさらに大規模なモデルを追求し、パラメータスケールを繰り返していくのでしょうか?

アリババ・ダモ・アカデミーM6の研究チームは次のように述べた。

パラメータスケールの拡大により、現在の事前トレーニングモデルは言語モデリングなどのタスクで大きな進歩を遂げています。
しかし、知識の理解はまだ比較的浅いです。

したがって、大規模モデルが知識を真に理解して適用できるように、大規模モデルをさまざまな種類の下流タスクに効果的に移行させる方法は、研究者がさらに探求する課題となるでしょう。

紙:
https://arxiv.org/abs/2110.03888

<<:  顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

>>:  ビジネスインテリジェンスをビジネスに活用する 10 のメリット

ブログ    
ブログ    

推薦する

ビッグデータが急成長し、我が国のクラウドコンピューティングは「黄金の窓」の時代を迎えている

[[206431]]クラウドコンピューティングは、電力網、交通網、インターネットと同様の「国家インフ...

ロボットは共感を持つことができるか?感情AIはどれくらい使えるのか?

ポータブル AI アプリケーションといえば、まず Siri、Alexa、Google Assista...

クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

[[187627]]機械学習は、Apple の Siri や Google のアシスタントなどのス...

ソートアルゴリズムのより詳細な概要

ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...

...

...

自然言語処理シーケンスモデル——HMM隠れマルコフモデル

前回の記事では、主にテキストコーパスの抽出と前処理のプロセスについて説明しました。次のステップは、コ...

まずは機械学習から始めましょう

この記事では、機械学習について簡単に紹介します。この記事の目的は、機械学習の知識がない人が機械学習を...

...

量子コンピューティングの巨匠アーロンソンが OpenAI に加わりました!彼はまた、ヤオクラスのトップ生徒である陳立傑の家庭教師でもある。

国内企業の大物たちが次々と退職し、大学へ移ったり、起業したりしている。違うのは、量子コンピューティン...

拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

デジタルマーケティング: AI はどのようにして人間の行動パターンを「見抜く」のでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

皆を置き去りにする!紅河の人工知能交通違反画像処理プラットフォームが市場にデビュー

社会の生産性の向上は現代交通の進歩を牽引していますが、現代交通がもたらす大きな利便性を享受する一方で...

人工知能の知られざる12の秘密

[[375984]] [51CTO.com クイック翻訳] 人工知能技術がさまざまな業界でますます使...

...