2024年初頭のキング爆弾として、ソラの出現は追いつくための新たな目標を設定しました。ヴィンセントビデオのすべての研究者は、ソラの効果を最短時間で再現したいと考えています。 OpenAIが公開した技術レポートによると、Soraの核心技術ポイントの一つは、視覚データをパッチの統一された表現形式に変換することであり、Transformerと拡散モデルの組み合わせにより、優れたスケール特性を発揮するという。報告書が発表された後、SoraのコアR&Dメンバーであるウィリアム・ピーブルズ氏とニューヨーク大学のコンピュータサイエンスの助教授である謝彩寧氏が共著した論文「トランスフォーマーによるスケーラブルな拡散モデル」が多くの研究者の注目を集めました。私たちは、この論文で提案された DiT アーキテクチャを突破口として、Sora を再現するための実現可能な方法を模索したいと考えています。 最近、シンガポール国立大学の You Yang 氏のチームによってオープンソース化された OpenDiT と呼ばれるプロジェクトにより、DiT モデルのトレーニングと展開に関する新しいアイデアが生まれました。 OpenDiT は、テキストからビデオへの生成やテキストから画像への生成を含む DiT アプリケーションのトレーニングと推論の効率を向上させるために特別に設計された、使いやすく、高速で、メモリ効率に優れたシステムです。 プロジェクトアドレス: https://github.com/NUS-HPC-AI-Lab/OpenDiT OpenDiTメソッドの紹介OpenDiT は、Colossal-AI を搭載した Diffusion Transformer (DiT) の高性能実装を提供します。トレーニング中、ビデオと条件情報はそれぞれ対応するエンコーダーに DiT モデルの入力として送られます。その後、拡散法を使用してトレーニングとパラメータ更新が行われ、最後に更新されたパラメータが EMA (指数移動平均) モデルに同期されます。推論段階では、EMA モデルを直接使用し、条件情報を入力として受け取り、対応する結果を生成します。 画像出典: https://www.zhihu.com/people/berkeley-you-yang OpenDiT は、ZeRO 並列戦略を使用して DiT モデル パラメータを複数のマシンに分散し、最初にビデオ メモリへの負荷を軽減します。パフォーマンスと精度のより良いバランスを実現するために、OpenDiT は混合精度トレーニング戦略も採用しています。具体的には、モデル パラメーターとオプティマイザーは、更新の精度を確保するために float32 を使用して保存されます。モデルの計算プロセス中に、研究チームは、モデルの精度を維持しながら計算プロセスを高速化するために、DiT モデルに float16 と float32 の混合精度方式を設計しました。 DiT モデルで使用される EMA メソッドは、モデル パラメータの更新を平滑化する戦略であり、モデルの安定性と一般化能力を効果的に向上させることができます。ただし、パラメータの余分なコピーが生成され、ビデオ メモリの負担が増加します。ビデオメモリのこの部分をさらに削減するために、研究チームは EMA モデルを分割し、異なる GPU に保存しました。トレーニング プロセス中、各 GPU は担当する EMA モデル パラメータを計算して保存するだけでよく、各ステップの後に ZeRO が更新を完了するのを待って同期更新を実行します。 ファストシーケンス DiT などの視覚生成モデルの分野では、長いシーケンスの効率的なトレーニングと低レイテンシの推論にはシーケンスの並列処理が不可欠です。 しかし、DeepSpeed-Ulysses や Megatron-LM Sequence Parallelism などの既存の方法をこのようなタスクに適用すると、シーケンス通信が多すぎるか、小規模なシーケンス並列処理の処理効率が不足するかのいずれかの制限に直面します。 この目的のために、研究チームは、大規模なシーケンスと小規模な並列処理に適した新しいタイプのシーケンス並列処理である FastSeq を提案しました。 FastSeq は、各トランスフォーマー レイヤーに 2 つの通信演算子のみを使用することでシーケンス通信を最小限に抑え、AllGather を活用して通信効率を向上させ、非同期リングを戦略的に採用して AllGather 通信と qkv 計算を重ね合わせることでパフォーマンスをさらに最適化します。 オペレータの最適化 adaLN モジュールは、条件情報をビジュアル コンテンツに統合するために DiT モデルに導入されています。この操作はモデルのパフォーマンスを向上させるために重要ですが、要素ごとの操作も大量に発生し、モデル内で頻繁に呼び出されるため、全体的な計算効率が低下します。この問題を解決するために、研究チームは、複数の操作を 1 つに統合し、計算効率を高め、視覚情報の I/O 消費を削減する効率的な Fused adaLN カーネルを提案しました。 画像出典: https://www.zhihu.com/people/berkeley-you-yang つまり、OpenDiT には次のようなパフォーマンス上の利点があります。 1. GPUで最大80%の高速化、50%のメモリ節約
2. FastSeq: 新しいシーケンス並列アプローチ
3. 使いやすい
4. テキストから画像、テキストからビデオを生成する完全なパイプライン
インストールと使用方法OpenDiT を使用するには、まず前提条件をインストールします。
例を実行するには、Anaconda を使用して新しい環境 (Python >= 3.10) を作成することをお勧めします。 ColossalAIをインストールします: OpenDiT をインストールします。 (オプションですが推奨) トレーニングと推論を高速化するためのライブラリをインストールします。 画像生成 次のコマンドを実行して、DiT モデルをトレーニングできます。 デフォルトでは、すべての加速方法は無効になっています。トレーニング プロセスの重要な要素の詳細は次のとおりです。
推論に DiT モデルを使用する場合は、次のコードを実行し、チェックポイント パスを独自のトレーニング済みモデルに置き換えることができます。 ビデオ生成 次のコマンドを実行して、ビデオ DiT モデルをトレーニングできます。 DiT モデルを使用してビデオ推論を実行するコードは次のとおりです。 DiT 再生結果OpenDiT の精度を検証するために、研究チームは OpenDiT の origin メソッドを使用して DiT をトレーニングし、ImageNet でモデルを最初からトレーニングし、8xA100 で 80,000 ステップを実行しました。トレーニングされた DiT によって生成された結果をいくつか示します。 この損失は、DiT の論文に記載されている結果とも一致しています。 上記の結果を再現するには、train_img.py のデータセットを変更し、次のコマンドを実行する必要があります。 興味のある読者はプロジェクトのホームページにアクセスして、研究の詳細を知ることができます。 |
<<: LLaMa 3はGPT-4を目指し、ジェミニから教訓を得て7月に延期される可能性あり
ご存知のとおり、オープンソースの大規模言語モデル (LLM) とその派生モデル (LLaMA や V...
ZKの紹介ZK = 動物園の飼育係ZK は、マイクロサービス ソリューションにおけるサービス登録と検...
[[327938]]ビッグデータダイジェスト制作著者: 劉俊環半年前に Taobao をオープンした...
インターネットの普及は無線技術の発達に伴い、人々のライフスタイルも変えつつあります。モバイル決済、無...
11月13日、マイクロソフトリサーチとプリンストン大学の研究者らは、ガウス分布とサブスペースクラスタ...
2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...
[[388433]]伝統的な哲学的観点では、「自由意志」は人間だけが持つ特別な能力であり、この能力...
AIは中国のインターネットを汚染する「犯人」の1つとなった。問題はこれです。最近、誰もが AI に相...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...
ペンシルベニア大学医学部が最近実施した研究では、人工知能がオピオイド乱用と戦うためにどのように使用で...
UAVとは無人航空機の略称で、無線遠隔操縦装置と独自のプログラム制御装置によって操縦される無人航空機...
今日最も進歩的で、最先端で、刺激的なもの…データ サイエンスと機械学習は、今日非常に魅力的で、非常に...
はい、この時計があれば、MNIST 手書きデータセットなしでは生きていけません。私たちは古代の真空管...