翻訳者 | 朱剛 レビュー | Chonglou Midjourney や DALL-E 2 などの拡散モデルは素晴らしい画像を生成できますが、そのトレーニングは常に完全なノイズから始まります。 機械学習 (ML) の分野で進歩や小さな変化が起こるたびに、大きな話題になります。人工知能に関しては、誇大宣伝が制御不能になり、あらゆる種類のばかげた情報が伴う傾向があります。最近、Midjourney、ChatGPT、Copilot などのテクノロジーを使用する人が増えていることに気付いたかもしれません。 しかし、これらのシステムに関する真実は、往々にして平凡なものである。機械学習は数学的な科学であり、ML モデルの実際の影響は一部のブロガーが主張するほど大きなものではありません。これらはワークフローの特定の領域にメリットをもたらし、場合によってはワークフローの大部分に革命をもたらすこともありますが、それはユーザー (組織または個人) がその内部の仕組み、制限、機能、可能性を十分に理解している場合に限られます。この場合にのみ効果を発揮します。 この投稿では、人気の Midjourney、DALL-E 2、Stable Diffusion などの拡散モデルの仕組み、特にそのトレーニング プロセスについて説明します。この記事には数式が含まれていますが、各変数が何を表しているかについてもわかりやすく説明しています。 前方拡散Midjourney を含むすべての拡散モデル (まだこれを説明する論文はありませんが) は、ランダム性によって画像を生成する複数の要素で構成されたニューラル ネットワークです。最初は、画像を徐々にノイズに変換するようにトレーニングされます。このアプローチは、画像が一連の変換を受け、t = 0 での初期純粋状態から最終ステップの t = T で完全にノイズの多い状態へと進化する時間ステップのマルコフ連鎖を構築します。
各ステップで適用される時間ステップの数は数百から千以上に及ぶ可能性があり、各ステップで適用されるノイズのレベルは事前に決定する必要があります。これをノイズスケジュールと呼びます。数学的には、このノイズまたは前方拡散プロセスは次のように表されます。 q(xt|xt-1) = N(xt; √(1-βt) xt-1, βtI) q(x0)は実際の分布ですが、q(xt|xt−1)はxtが常にxt-1に条件付けられる順方向拡散プロセスを表します。記号 N は、平均 μ と分散 σ^2 によって定義されるガウス分布または正規分布を表します。この場合、平均は√(1-βt)xt-1で表され、βtは分散です。ノイズは各ステップϵ∼N(0,I)で正規分布からサンプリングされ、分散スキームは事前に決定されます。 簡単に言えば、現在のステップでは正規分布があり、平均は前のステップの画像 xt-1 の√(1-βt) 倍で表されます。この再スケーリングに加えて、各反復で画像に小さなノイズ βtI も追加します。 β は、意図的に小さく設定された 0.001 などの小さな正のスカラー値と考えてください。 各タイムステップで、上記の操作を実行します。ただし、シーケンス xt、x2、x3、...、xT で生成されるすべてのサンプルの結合分布を定義することもできます。その形式は次のとおりです。 q(x1:T|x0) = ∏t=1:T q(xt|xt-1) ご覧のとおり、この結合分布は、初期画像 x0 が与えられた場合に、時間ステップ 1 から T で作成された条件付き分布 q(xt|xt-1) の積 Π によって表されます。 わかりました。しかし、前のすべてのステップを実行せずにチェーン内のリンクをスキップして xt を生成することはできますか?はい、可能です。 これは、データを拡散するために単純なガウスカーネルを使用するためです。これを行うには、1 - βt に等しいスカラー値 αt を計算し、変数 ᾱt を t1 から t までの αs の積として定義します。順方向拡散分散 βt はプロセス全体にとって重要です。これらは再パラメータ化によって学習することも、ハイパーパラメータとして固定しておくこともできますが、最後のステップ T で ᾱt が 0 に近づくように常に設計されます。これにより、拡散されたデータが正規分布を持つことが保証され、これは逆生成プロセスにとって重要です。 カーネル関数ができたので、xt = √ᾱt x0 + √(1 - ᾱt) のように任意の xt をランダムにサンプリングできます。ここで、ε (ノイズ) は平均 0 および共分散行列 I の正規分布から抽出されます。 簡単に言えば、マルコフ連鎖のランダムステップを表す xt を生成する必要がある場合、x0、ᾱt、ノイズ項 ε があれば問題なく生成できます。 生成プロセス次に、モデルが新しいサンプルを生成する逆のプロセスについて詳しく見ていきましょう。最初に理解しておくべきことは、データセット内のすべての画像の分布を知る必要があるため、ノイズ除去された分布 q(xt-1|xt) を直接計算することはできないということです。しかし、ベイズの定理を用いると、この分布はステップtにおける周辺データ分布q(xt-1)と拡散カーネルq(xt|xt-1)の積に比例することがわかります。 q(xt-1|xt) ∝ q(xt-1) q(xt|xt-1) しかし、製品と流通は依然として扱いにくい状態です。したがって、条件付き確率分布を近似する必要があります。幸いなことに、順方向プロセスにおけるノイズ注入 βt は小さいため、近似に正規分布を使用できます。 この条件付き確率分布の近似値はpθ(xt−1|xt)と表すことができます。ここでθはモデルのパラメータであり、勾配降下法によって反復的に最適化されます。 マルコフ連鎖の終点が正規分布であることを思い出すと、逆のプロセスもガウス分布であると想定できます。したがって、ニューラル ネットワークが計算する必要がある平均 μθ と分散 Σθ によってパラメーター化する必要があります。 これはプロセスのパラメトリック表現です: pθ(xt−1|xt)=N(xt−1;μθ(xt,t),Σθ(xt,t)) オリジナルの論文「拡散確率モデルのノイズ除去」では、研究者らは、分散を Σθ(xt, t) = σ^2tI に固定することがサンプル品質の観点から最良の選択であることを発見しました。特に、分散を β に固定すると、分散を βt に固定した場合とほぼ同じ結果が得られることを発見しました。これは、プロセスに拡散ステップを追加すると、β と βt が近いままになるため、分布を決定するのは実際には分散ではなく平均だからです。
では、平均を導き出すための目的関数をどのように決定するのでしょうか?q と pθ は、データ分布を潜在空間にエンコードしてから入力空間にデコードすることでデータ分布を近似するモデルである変分オートエンコーダーと見なすことができるため、変分上限 (ELBO) 目的関数を使用してトレーニングできます。 x0 に関する負の対数尤度を最小化します。ここで、変分下限は各時間ステップでの損失の合計であり、各損失項は 2 つのガウス分布間の KL ダイバージェンスです。
ご存知のとおり、x0 を条件とする任意のノイズ レベルで xt をサンプリングできます。 q(xt|x0) = N(xt;√(α̅t)x0, (1-α̅t)I)なので、x0にノイズを追加してスケーリングすることで任意のxtを取得できます。さらに、α̅t は βt の関数(分散が事前設定)であるため、トレーニング中に損失関数 L のランダム項を簡単に最適化できます。 この特性のもう一つの重要な利点は、ネットワークを平均予測子ではなくノイズ予測子に変えることができることです。具体的には、モデルが εθ(xt, t) を使用して KL ダイバージェンス項に追加されたノイズを近似するように、平均を再パラメータ化できます。例えば: μθ(xt, t) = (1/√αt) (xt - (βt/√(1-α¯t)) εθ(xt, t)) 最後に、損失関数Ltの目的方程式を取得します(ランダムな時間ステップで、ノイズがランダム分布N(0、I)からサンプリングされていると仮定します)。 ||ε - εθ(xt, t)||^2 = ||ε - εθ(√α¯t x0 + √(1-α¯t)ε, t)||^2 ここで、x0は破損していない画像、ϵは時間ステップtでサンプリングされた純粋なノイズ、εθ(xt, t)は近似値xtをθでパラメータ化されたニューラルネットワークに渡すことによって得られる予測ノイズです。 ネットワークは、予測されたノイズと実際のノイズ間の平均二乗誤差によって最適化されます。実際の誤差と予測誤差の間の距離を最小化することで、モデルが徐々により正確な近似値を算出するように学習します。要約すると、純粋なノイズから画像を生成できる Midhjourney や Stable Diffusion などのモデルを作成するための一連のトレーニング手順を次に示します。 原論文の画像 翻訳者紹介51CTO コミュニティ エディターの Zhu Gang 氏は、11 年間の最前線の開発経験を持っています。現在、北京途家健康で医療ソフトウェア開発に従事。 原題: Midjourney とその他の拡散モデルがランダムノイズから画像を作成する方法、著者: Rostyslav Demush |
<<: ChatGPTが新たな著作権紛争に巻き込まれる: ホラー小説作家2人が、訓練のために作品を盗んだとしてOpenAIを訴えた
>>: Googleはプライバシーポリシーを更新し、インターネット上の公開データをAIの訓練に利用していることを明確にした。
近年、我が国のドローン産業は急速な発展を遂げています。飛行制御、ナビゲーション、通信、センシングなど...
青いステージの真ん中に黒いパネルが立っていた。パネルには青い楕円形のスクリーンが点滅し、その奥から冷...
2022年、デジタル化の東風が到来し、新たな技術・産業革命が本格化します。デジタル化の波に立ち、絶え...
GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。 「どちらの側が明るいですか」...
今日では、それはもはや高尚な概念ではありません。スマートカーやスマートホームから、企業の資産管理機器...
1. DNNの一般化能力に関する問題この論文では主に、過剰パラメータ化されたニューラル ネットワー...
12月13日、人工知能(AI)スタートアップ企業へのベンチャーキャピタルの収益が鈍化している可能性が...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開...
現在、わが国の南北は本格的な洪水期に入っており、水利部門が洪水・干ばつ災害対策の緊急対応をレベルIV...
今日、カスタマー サービス ロボットは私たちにとって馴染み深い存在です。電話料金、住所、登録、ビジネ...
[[349500]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...
クイズ番組「ジェパディ」の優勝者や囲碁の名人から、広告に関連した不名誉な人種プロファイリングまで、私...