この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 超大規模事前学習済みモデルのパラメータ数がまたもや爆発的に増加! 10000億! (はい、10兆) そして、 512 個のGPU を使用して 10 日間トレーニングされました。 これはDAMOアカデミーが発表した最新の超大規模汎用人工知能モデル、 M6-10Tです。 電子商取引、製造、文学芸術、科学研究などの分野でマルチモーダルおよびマルチタスク機能を備えており、それぞれの現実のシナリオの下流タスクに頻繁に登場します。 さらに、箱から出してすぐに使用できるので、今年のダブルイレブンでは M6-10T を携えていられます。 少ないリソースで大規模モデルを高速にトレーニングしかし、ショッピング フェスティバルについては今は脇に置いておきましょう。重要な質問は、M6-10T がどのようにして少量のリソースのみを使用して、超大規模モデルのトレーニングを完了するかということです。 マイクロソフトの以前のDeepSpeed MoEモデルも、3.5兆個のパラメータのトレーニングを完了するために512個のA100を使用していたことを知っておく必要があります。 同社が5か月前に発売した兆レベルのパラメータを備えたM6は、480個のGPUを使用してトレーニングされた。 では、512 個の GPU がどのようにして 10 兆個のパラメータを保持できるのでしょうか? ここで、DAMO アカデミーによって開発された分散フレームワークである Whale について説明します。 このフレームワークに基づいて、M6 モデルは、きめ細かく制御可能な CPU オフロード方式を使用し、オフロードするモデル レイヤーを柔軟に選択できます。 つまり、すべての重みを CPU メモリにオフロードする代わりに、一部の重みを GPU メモリに保持して計算することで、GPU の使用率をさらに向上させることができます。 パラメータを設定したら、次のステップはトレーニング効率を向上させることです。 M6-10T モデルは、Pseudo-to-Real と呼ばれる新しいトレーニング戦略を使用します。 この戦略は 2 つのフェーズで構成されます。 最初の段階では、クロスレイヤー パラメータ共有メカニズムを使用して、小さなモデル Pseudo Giant を迅速に構築およびトレーニングします。 パラメータがはるかに少ない Pseudo Giant はメモリに制限されないため、大規模なバッチでトレーニングすることで高速化できます。 エキスパートの分割およびマージ メカニズムと組み合わせると、擬似巨人を迅速にトレーニングするために必要な GPU は 256 個だけです。 第 2 段階では、共有パラメータの接続が解除され、新しい Real Giant モデルが取得されます。 「共有」フェーズでトレーニングされたモデル レイヤーのパラメーターは、Real Giant の各レイヤーの初期化を提供し、トレーニングされた小さなモデルに基づいて大きなモデルを継続的に最適化できます。 下流の評価では、Real Giant モデルを最初からトレーニングするのは非常に時間がかかりますが、Pseudo Giant トレーニングの収束速度は Real Giant トレーニングの約 5 倍高速であることがわかります。 △48台のNVIDIA V100 GPUデバイスでトレーニング このメカニズムにより、M6-10T はサンプル サイズの点でより速く収束できるだけでなく、モデルのトレーニング速度も 7 倍以上向上します。 以前の M6-MoE および M6-T と比較すると、新しいトレーニング戦略を採用した M60-10T は、困惑度が低く、モデルが優れています。 これまで 480 個の GPU を使用していた 1 兆パラメータ モデル M6 も、現在の方法を使用すれば、トレーニングを完了するのに 64 個の GPU しか必要なくなると言えます。 ダブルイレブンのモデルM6-10T は、アルゴリズム レベルでの価値に加え、発売後すぐに使用を開始できます。 たとえば、来たるダブルイレブンでは、AI がデザインした服が店頭に並ぶことになるかもしれません。 △M6デザインを元に生成された服装スタイル それは、大きなモデルがもたらす創造性です。 StyleGAN と組み合わせると、M6 は優れた詳細品質と編集性を維持しながら、サンプル数が少ない画像を自動的に生成できます。 また、従来のデザインスタイルの写真とは異なり、M6 によって生成された写真は実際のオブジェクトに近くなります。 Taobao および Alipay モバイル アプリでは、M6 インテリジェンスに基づいて生成されたコンテンツ コピーも表示されます。 同時に、大規模モデルのマルチモーダル特徴抽出機能は、認知的想起のための製品属性ラベルを補完することもできます。 アリババの40を超える事業チームの背後には、M6モデルのさまざまなバージョンに基づいたサービス指向のプラットフォームがあると言えます。 電子商取引分野以外にも、金融、産業、伝統科学など、応用分野は数多くあります。 現在、M6サービス指向プラットフォームは、業界で最も広範な大規模モデルエコシステムをカバーするサービス指向プラットフォームとなっています。 では、今後もさらに大規模なモデルを追求し、パラメータスケールを繰り返していくのでしょうか? アリババ・ダモ・アカデミーM6の研究チームは次のように述べた。
紙: |
<<: 顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?
>>: ビジネスインテリジェンスをビジネスに活用する 10 のメリット
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[436890]]最近、清華大学のチームが事前トレーニングを必要としない効率的な NLP 学習フ...
現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしていま...
ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...
先週、コピーライターのパネルがAIによってコピーライターの必要性がなくなるかどうかを議論した。一部の...
はじめに: AI 開発についてさらに詳しく知りたいですか? この記事では、AIプログラムを作成する際...
MySQL は広く使用されているリレーショナル データベース管理システムです。データベース設計では...
今年初め、イノベーション、リサーチ、インキュベーションのグローバルディレクターであるルネ・シュルテ氏...
[[433522]] 1 テンソル刈り込み操作テンソル内の要素を範囲でフィルタリングする勾配クリッ...
最短経路問題は、グラフ理論研究における古典的なアルゴリズム問題であり、グラフ(ノードとパスで構成され...
人工知能は今日最も注目されている流行語であり、その発展により企業や業界は情報に基づいた意思決定を行い...
機械学習と人工知能は、今日の IT プロフェッショナルの間でホットな話題であり、エンタープライズ デ...
マイクロソフトは8月16日、AI利用規約を発表し、9月30日に正式に発効すると発表した。新しい用語は...
このテーマについて、人工知能の起源と発展、その一般原理、不安を避ける方法、そして時代に追いつく方法な...