この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 拡散モデルは、GANに匹敵する画像生成性能を備えていることから、最近AIコミュニティで注目されています。 Google と OpenAI はともに過去 1 年間に独自の普及モデルを提案しており、その結果は驚くべきものでした。 一方、ケンブリッジ大学の学者デイビッド・クルーガー氏は、オートエンコーダが復活して研究トレンドになるかどうかを疑問視した。 つい最近、DeepMind の研究科学者 Sander Dieleman 氏が、上記の 2 つの傾向に基づいて独自の見解を発表しました。 拡散モデルはオートエンコーダです。 この意見はすぐに多くのネットユーザーの注目を集めました。サンダーの説明を読んだ後、誰もがそれが理にかなっていて、多くのインスピレーションを与えていると感じました。 それで、彼はどうやって自分の主張を証明したのでしょうか? 一緒に見ましょう。 ノイズ除去オートエンコーダ = 拡散モデル両者のつながりを理解するには、まずそれぞれの特徴を理解する必要があります。 拡散モデルは、新しい画像生成方法です。その名前の「拡散」は、本質的には反復的なプロセスです。 これは 2015 年に初めて提案され、拡散ステップでデータにランダム ノイズをゆっくりと追加し、その後、拡散プロセスを逆に学習することでノイズから目的のデータ サンプルを構築するマルコフ連鎖を定義します。 拡散モデルは、GAN、VAE、フローベースの生成モデルと比較してパフォーマンスのトレードオフが良好で、特に忠実度と多様性の両方を実現するためのガイダンスと組み合わせると、画像生成において大きな可能性があることが最近示されました。 たとえば、昨年 Google が提案した Cacade 拡散モデル SR3 は、低解像度の画像を入力として受け取り、純粋なノイズから対応する高解像度の画像を構築します。 OpenAI の GLIDE と ADM-G も拡散モデルを使用して、よりリアルで多様で複雑な画像を生成します。 △GLIDEモデル効果 次に、自動エンコーダの原理を見てみましょう。 オートエンコーダは、元の入力を復元しようとするシステムとして理解できます。モデルは次のとおりです。 その主な目的は、入力を中間変数に変換し、次に中間変数を出力に変換し、最後に入力と出力を比較してできるだけ近づけることです。 モデルフレームワークにボトルネック層があったり、入力が破損していたりする場合でも、オートエンコーダは入力の本質的な特徴を学習し、その能力を発揮することができます。 ここでは、著者は主に拡散モデルとノイズ除去オートエンコーダを比較します。 破損したデータを入力として受け取り、破損していない元のデータを出力として予測するようにトレーニングできます。 これはあなたにとって見覚えがありますか? 入力にノイズを追加することは、入力を破損させる方法ではないでしょうか? では、ノイズ除去オートエンコーダーと拡散モデルは原理的には同じ効果を持つのではないでしょうか? これら2つはどのように同等なのでしょうか?著者は自身の考えを検証するために、原理的な観点から拡散モデルを分解した。 拡散モデルの鍵はスコア関数にある (スコア機能) 。 注目すべきは、 違う。 (勾配を求めるためのパラメータは異なります) 後者は、下向きの入力の可能性を高めるためにモデルパラメータを変更する方法を知ることを可能にし、前者は、可能性を高めるために入力自体を変更する方法を知ることを可能にします。 トレーニング中は、ノイズ除去プロセスのすべてのポイントで同じネットワークを使用することが望ましいです。 これを実現するために、追加の入力が導入される。 これによって、ノイズ除去のどの部分が行われたかが分かります 。 t=0 の場合、ノイズのないデータに対応し、t=1 の場合、純粋なノイズ データに対応します。 このネットワークを訓練する方法はノイズを追加することである 入力xを破損します。それから 中期予報 。 ここでの分散はtに依存し、特定のポイントでのノイズ レベルに対応することに注意することが重要です。損失関数は通常、平均二乗誤差 (MSE) ですが、λ(t) によって重み付けされ、一部のノイズ レベルが他のノイズ レベルよりも優先されることがあります。 λ(t)=1と仮定すると、重要な観察結果は または x (これらは同等) の場合、次の式を使用できます。 同等であることを確認するには、トレーニングモデルの使用を検討してください。 予測する 、新しい残余接続を追加します。入力から出力への比例係数は -1 であり、この調整されたモデルは次を実現します。 したがって、拡散モデルは徐々にノイズ除去オートエンコーダになります。 もう一つしかし、ブログの著者は、拡散モデルとノイズ除去オートエンコーダの効果は同等であるものの、両者は完全に互換性があるわけではないことも強調しました。 そして、上で得られたノイズ除去オートエンコーダも従来のタイプとは異なります。
著者が強調したいのは、この2つの間のつながりです。 さらに、彼は、優れたモデル効果の鍵は、表現学習で広く使用されている共有パラメータであるはずだとも述べた。 これらの結果からパターンも見つかります:
著者は上記のルールはさらなる研究に値すると考えています。
最後に、この発見の発案者である Sander Dieleman 氏を紹介しましょう。 彼は現在、DeepMind の研究科学者として、生成モデルと音楽合成に焦点を当てています。 彼が参加した主な研究には、Spotify 音楽プラットフォームのコンテンツ推奨モデルが含まれていました。 |
<<: 錬金術をより形而上学的にしましょう!蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。
>>: 人工知能プロジェクトのための 10 のヒント - ガイド
世界最大のセマンティック評価コンテスト「SemEval-2022」は7月19日、今年唯一の「最優秀シ...
生成 AI テクノロジーは、単純なフレーズを驚くほどリアルな画像に変換し、世界中の人々の想像力をかき...
[[379731]] iFLYTEKは、流行病によって大きな影響を受けているにもかかわらず、人工知...
2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...
誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
変分量子分類器 (VQC) は、量子コンピューティング技術を使用して分類タスクを実行する機械学習アル...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
10月13日、Microsoft 365 ロードマップによると、OneNote、Word、OneDr...
近年、人工知能は大手企業の重要な研究分野となり、「政府活動報告」にも記載されるようになりました。これ...