IGN は拡散モデルに終止符を打ち、ワンステップでリアルな画像を生成します。カリフォルニア大学バークレー校のGoogleがLLMを革新、アメリカのテレビシリーズがインスピレーションの源に

IGN は拡散モデルに終止符を打ち、ワンステップでリアルな画像を生成します。カリフォルニア大学バークレー校のGoogleがLLMを革新、アメリカのテレビシリーズがインスピレーションの源に

非常に普及した拡散モデルは廃止されるのでしょうか?

現在、GAN、拡散モデル、一貫性モデルなどの生成 AI モデルは、入力をターゲット データ分布に対応する出力にマッピングすることで画像を生成します。

通常、この種のモデルは実際の写真を大量に学習し、生成された写真の実際の特徴を確認する必要があります。

最近、カリフォルニア大学バークレー校と Google の研究者が、新しい世代モデルである Idempotent Generation Network (IGN) を提案しました。

写真

論文アドレス: https://arxiv.org/abs/2311.01462

IGN は、複数ステップの反復を必要とせずに、ランダム ノイズ、単純なグラフィックなどのさまざまな入力から 1 つのステップでリアルな画像を生成できます。

このモデルは、任意の入力データをターゲット データ分布にマッピングできる「グローバル プロジェクター」を目指しています。

つまり、これが将来の一般的な画像生成モデルの様子です。

興味深いことに、著者は『となりのサインフェルド』の非常に効果的なシーンからインスピレーションを受けた。

写真

このシナリオは、「べき等演算子」の概念をうまく要約しています。これは、計算プロセス中に同じ入力が繰り返し計算され、結果が常に同じになることを意味します。

今すぐ

写真

ジェリー・サインフェルドがユーモラスに指摘したように、現実世界の行動の中にはべき等性を持つものもあると考えられます。

冪等生成ネットワーク

IGN には、GAN や拡散モデルとの 2 つの重要な違いがあります。

- IGNはGANとは異なり、生成器と識別器を別々に必要としません。生成と識別を同時に完了する「自己敵対的」モデルです。

- 増分ステップを実行する拡散モデルとは異なり、IGN は入力を 1 つのステップでデータ分布にマッピングしようとします。

では、べき等生成モデル (IGN) はどこから来たのでしょうか?

ソース分布からの入力サンプルを指定して、ターゲット分布からサンプルを生成するようにトレーニングされます

例のデータセットが与えられた場合、各例は から取得されます。その後、研究者らはモデルをトレーニングしてマッピングしました

分布 yy は同じ空間に存在する、つまり、それらのインスタンスは同じ次元を持つと仮定します。これにより、の両方のタイプのインスタンスに適用できるようになります

この図は、IGN の基本的な考え方を示しています。実際の例 (x) はモデル f に対して不変です。その他の入力 (z) は、最適化によってそれ自体にマッピングされる f のインスタンスのストリームにマッピングされます。

写真

IGN トレーニング ルーチンの PyTorch コードの一部の例。

写真

実験結果

IGNを取得した後、効果は何ですか?

著者らは、現段階では IGN の生成結果は最先端のモデルに匹敵できないことを認めている。

実験では、より小さなモデルと低解像度のデータセットを使用し、探索では簡略化手法に重点を置きました。

もちろん、GAN や拡散モデルなどの基本的な生成モデリング技術も、成熟したスケーラブルなパフォーマンスを実現するにはかなり長い時間がかかりました。

実験のセットアップ

研究者らは、それぞれ 28×28 と 64×64 の画像解像度を使用して、MNIST (グレースケールの手書き数字のデータセット) と CelebA (顔画像のデータセット) で IGN を評価しました。

著者らは、エンコーダーが DCGAN からの単純な 5 層ディスクリミネーター バックボーンであり、デコーダーがジェネレーターである単純なオートエンコーダー アーキテクチャを採用しました。トレーニングとネットワークのハイパーパラメータを表 1 に示します。

写真

結果を生成する

図 4 は、モデルを 1 回および 2 回連続して適用した後の 2 つのデータセットの定性的な結果を示しています。

図に示すように、IGNを1回適用すると(f(z))、コヒーレントな生成結果が生成されます。ただし、MNIST 数字に穴が開いたり、顔の画像の頭や髪の毛の上のピクセルが歪んだりするなどのアーティファクトが発生する可能性があります。

f(f(f(z))) を再度適用すると、これらの問題を修正し、穴を埋めたり、顔のノイズパッチ周辺の全体的な変動を減らしたりすることができます。

写真

図 7 は追加の結果と、f を 3 回適用した結果を示しています。

写真

との比較から画像が学習した多様体に近い場合、画像が分散していると見なされるため、 f を再度適用すると変化が最小限に抑えられることがわかります。

潜在空間操作

著者らは、GAN の場合と同様の操作を実行することで、IGN が一貫した潜在空間を持つことを実証しています。図 6 は潜在空間アルゴリズムを示しています。

写真

分布外マッピング

著者らはまた、さまざまな分布からの画像をモデルに入力して同等の「自然画像」を生成することで、IGN の「グローバル マッピング」の可能性を検証しました。

研究者たちは、ノイズの多い画像 x+n のノイズを除去し、グレースケール画像をカラー化し、スケッチを図 5 の実際の画像に変換することでこれを実証しています。

元の画像 x の場合、これらの逆タスクは不適切です。 IGN は、元の画像の構造に適合した自然なマッピングを作成できます。

図に示すように、f を連続して適用すると、画像の品質が向上します (たとえば、投影されたスケッチ内の暗い部分や煙のアーティファクトが除去されます)。

写真

Google の次なる展開は?

上記の結果から、IGN は推論においてより効果的であり、トレーニング後に 1 ステップで結果を生成できることがわかります。

また、より一貫性のある結果を出力できるため、医療画像の修復など、より多くのアプリケーションに一般化できる可能性があります。

論文の著者らは次のように述べています。

私たちはこの研究を、生成モデリングにおける新しいパラダイムである、任意の入力をターゲット分布にマッピングすることを学習するモデルに向けた第一歩であると考えています。

次に、研究チームは、新しい生成 AI モデルの潜在能力を最大限に引き出すために、より多くのデータを使用して IGN の規模を拡大する予定です。

最新研究のコードは今後GitHubで公開される予定です。

参考文献:

https://assafshocher.github.io/IGN/

https://the-decoder.com/inspired-by-seinfeld-google-unveils-new-ai-model-for-image-generation/


<<:  AI対詐欺: フィッシング戦術の新時代の幕開け

>>:  NetEase Cloud Music 推奨システムのコールド スタート技術

ブログ    

推薦する

自然言語処理: コンピュータに人間の言語を理解して処理させる

自然言語処理 (NLP) は、人工知能の分野における重要かつ刺激的なテクノロジーです。その目標は、コ...

...

AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法

機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...

報告書は、2030年までにサイバーセキュリティの分野でAIが人間に取って代わる可能性があると予測している。

新型コロナウイルス肺炎の流行は社会全体の生産と生活に影響をもたらしています。企業は、感染拡大の影響を...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

学術界の巨人たちのブラックテクノロジー:人工知能のダークマターについて聞いたことがありますか?

北京大学の公式サイトの最新情報によると、元UCLA(カリフォルニア大学ロサンゼルス校)教授の朱松春...

ディープラーニングのための 5 つのニューラル ネットワーク モデルとその応用

[[349567]] [51CTO.com クイック翻訳] ニューラル ネットワークは、一連のデータ...

MLOps 向け機械学習設計パターン

著者 | Pier Paolo Ippolito、データ サイエンティスト翻訳者 | 陸新王校正 |...

たった1ミリ低くなれば時間が遅くなります!科学者が初めてミリメートルスケールで一般相対性理論を検証

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Amazon AWSが新しいAIチップをリリース、Nvidia H200も提供

11月29日、米国時間火曜日に開催されたReinventカンファレンスにおいて、アマゾンのクラウドコ...

この AI 商用リストをお見逃しなく: 生産上の問題はアプリケーションで解決できるかもしれません (続き)

[[220537]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培新年を前に、温翁氏は音声認識から...

...

JavaScript ChatGPT プラグインの構築、学習しましたか?

チャット プラグイン システムは、ChatGPT の機能を拡張し、独自のビジネス データを組み込み、...

...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...