最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]]

GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため、シーンとオブジェクトのセマンティクスを組み合わせると不合理な画像が生成されやすく、一見すると偽の画像になります。最近、Facebookは史上最強の移行能力を持つと言われるIC-GANモデルをリリースしました。さまざまなシーンやオブジェクトを組み合わせることができ、トレーニングセットに登場しなかったものも完璧に復元できます。雪とラクダを一緒にしても違和感がありません!

生成的敵対的ネットワーク (GAN) は、リアルな画像、抽象的なコラージュ、スタイル転送を生成できる、画像生成の分野で最も強力な AI モデルであると言えます。

しかし、GAN にはニューラル ネットワーク モデルに共通する致命的な欠陥もあります。つまり、GAN には制限があり、通常はトレーニング データセットに密接に関連するオブジェクトまたはシーンの画像しか生成できないということです。

例えば、車の画像でトレーニングしたGANは、車関連の画像であれば極めてリアルに生成できますが、花や動物などのモデルを生成するように要求された場合、生成された画像が物理学などの常識に反する可能性があるため、一見偽物に見える可能性があります。

この問題を解決するために、Facebook AI Research は、リアルでこれまでにない画像の組み合わせを生成できる新しいモデル、Instance-Conditioned GAN (IC-GAN) を提案しました。

https://arxiv.org/abs/2109.05070

たとえば、雪とラクダの写真、または街中のシマウマの写真をシームレスに組み合わせることができます。

コードは現在オープンソースです。

研究者らはカーネル密度推定 (KDE) 手法にヒントを得て、複雑なデータセットの分布をモデル化するためのノンパラメトリック手法を導入しました。 KDE は、各トレーニング データ ポイントの周囲の密度をパラメーター化されたカーネルの混合としてモデル化するノンパラメトリック密度推定器です。

IC-GAN は、各コンポーネントがトレーニングインスタンスに基づいて条件付けされて取得される混合密度推定器として考えることができます。

ただし、KDE ​​とは異なり、IC-GAN はデータ確率を明示的にモデル化するのではなく、条件インスタンスとノイズ ベクトルを入力として受け取るニューラル ネットワークを使用してローカル密度を暗黙的にモデル化する敵対的アプローチを採用しています。

したがって、IC-GAN のカーネルは、処理するデータ ポイントから独立しなくなり、カーネル帯域幅パラメーターの代わりに、識別器に供給する実際のサンプルをサンプリングするインスタンスの近傍サイズを選択することで滑らかさを制御します。

IC-GAN は、データ マニホールドを、データ ポイントとその最も近い近傍によって記述される重複する近傍の混合物に分割し、IC-GAN モデルは各データ ポイントの周囲の分布を学習できます。条件インスタンスの周囲に十分に大きな近傍を選択することで、データが小さなクラスターに過度に分割されることを回避できます。

M 個のデータ サンプルを含むラベルなしデータセットの埋め込み関数 f が与えられた場合、まず f は教師なしトレーニングまたは自己教師トレーニングを使用してトレーニングされ、インスタンスの特徴が抽出されます。

次に、コサイン類似度を使用して、各データ サンプルの k 近傍のセットを定義します。

ジェネレータを使用して条件付き分布p(x | hi)を暗黙的にモデル化する場合、ジェネレータは条件付き分布からのサンプルを単位ガウス事前分布z∼N(0, 1)で変換します。ここで、hiはトレーニングデータから抽出されたインスタンスxiの特徴ベクトルです。

IC-GAN では、ジェネレーターのトレーニングに敵対的アプローチが使用されるため、ジェネレーターと識別器を共同でトレーニングすることができ、識別器は hi の実際の隣接ノードと生成された隣接ポイントを区別するために使用されます。各hiについて、真の近傍はAiから均一にサンプリングされます。

ジェネレータ G と識別器 D は両方とも 2 人のプレイヤーによる最小最大ゲームに参加し、目標に対するナッシュ均衡方程式を見つけようとします。

IC-GAN をトレーニングする際、利用可能なすべてのトレーニング データ ポイントを使用してモデルを微調整します。推論時には、KDE ​​などのノンパラメトリック密度推定法と同様に、IC-GAN のジェネレーターもインスタンス特徴を必要とします。インスタンス特徴は、トレーニング分布または別の分布から取得される場合があります。

この方法は、クラス条件による生成に拡張できます。クラスラベル y に追加のジェネレーターと識別子を追加することで、IC-GAN をクラス条件付き生成に使用できます。 IC-GAN は、インスタンスの表現をジェネレーターとディスクリミネーターへの追加入力として提供し、インスタンスの近傍をディスクリミネーターの実際のサンプルとして使用することで、データ ポイント (インスタンスとも呼ばれます) の近傍の分布をモデル化することを学習します。

離散クラスター インデックスの条件付けとは異なり、インスタンス表現の条件付けにより、ジェネレーターは自然に類似のインスタンスに対して類似のサンプルを生成します。また、一度トレーニングが完了すると、IC-GAN は推論時に条件付きインスタンスを交換するだけで、トレーニング中には見ら​​れなかった他のデータセットに簡単に移行できます。

実験部分では、研究者らは ImageNet および COCO Stuff データセットを使用しました。実験結果では、無条件モデルおよび教師なしデータ分割ベースラインと比較して、IC-GAN がパフォーマンスを大幅に向上したことが示されました。

非選択的ベースライン モデル BigGAN は、トレーニング セット内のすべてのラベルをゼロに設定してトレーニングされます。IC-GAN は、64×64 と 128×128 の両方の解像度で FID スコアと IS スコアの点で以前のすべての方法を上回り、高解像度でより高品質の画像を生成できます。

移行実験を行う際、まず ImageNet 上の BigGAN アーキテクチャを使用して IC-GAN をトレーニングし、テスト中に COCO Stuff インスタンスを使用して画像を生成します。このデータ分割パターンには、オブジェクトの未知の組み合わせが含まれています。 ImageNet でトレーニングされた IC-GAN は、すべてのセグメンテーションにおいて COCO Stuff でトレーニングされた同じモデルよりも優れています (128 解像度でのトレーニング FID は 8.5 対 16.8)。

ImageNet と COCO Stuff のデータ分布がどれだけ近いかを調べるために、研究者は 128×128 解像度で 2 つのデータセットの実際のデータ シーケンス分割間の FID スコアを 37.2 と計算しました。

したがって、IC-GAN の優れた転送能力はデータセットの類似性によって説明できるものではなく、ImageNet で事前トレーニングされた特徴抽出器と特徴生成器の有効性に起因すると考えられます。

COCO Stuff の条件付きインスタンスを ImageNet の条件付きインスタンスに置き換えると、トレーニング FID スコアは 43.5 となり、条件付きインスタンスを変更することで大幅な分布シフトが実現できることが強調されます。

研究者らは、IC-GAN をクラス条件付きのケースに拡張し、意味的に制御可能な生成と ImageNet での比較可能な定量的結果を示しています。

クラス条件付き IC-GAN は、FID と、128×128 解像度での FID スコアを除くすべての解像度の点で BigGAN を上回ります。 BigGAN とは異なり、IC-GAN はインスタンスの特徴を固定してクラス条件を交換するか、クラス条件を固定してインスタンスの特徴を交換することで、生成された画像のセマンティクスを制御できます。

生成された画像は、インスタンスのクラス ラベルとセマンティクスを保持し、ImageNet では未知のシーンである、類似の背景に対する異なる犬種や雪の中のラクダを生成できます。

これらの新しい機能により、IC-GAN は、データセットを拡張して多様なオブジェクトやシーンを含めるための新しい視覚的な例を作成し、アーティストやクリエイターに AI 生成のよりクリエイティブな幅広いコンテンツを提供し、高品質の画像生成の研究を進めるために使用できます。

<<:  エラー率を半分にするには、500 倍以上の計算能力が必要です。ディープラーニングの未来は、単にお金をかけるだけで実現できるのでしょうか?

>>:  200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

コンパクトなBEVインスタンス予測フレームワーク: PowerBEV

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

次世代スマートビルディング:データ駆動型施設はより安価で環境に優しいものになる

今日のスマート ビルは、各部屋や各階で何が起こっているかを把握し、エネルギー使用を最適化して持続可能...

...

電子商取引用に作成されたナレッジグラフは、ユーザーのニーズをどのように感知するのでしょうか?

[[243140]] 1. 背景2017年6月に電子商取引認知マップが発表されて以来、実践から体系...

Javaは4つのWeChat赤い封筒をつかむアルゴリズムを実装し、感謝せずにそれを受け取ります

概要2014年にWeChatが紅包機能を開始した後、多くの企業が独自の紅包機能の開発を開始しました。...

...

AIコンピューティングのローカライズのもう一つの可能​​性:CoCoPIEの探究と選択

[51CTO.comからのオリジナル記事]これは、少し前に設立され、シリーズAの資金調達を完了したば...

8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

オープンソースの奇跡が再び起こりました。Mistral AI が初のオープンソース MoE 大規模モ...

張晨成: 第四パラダイムインテリジェントリスク管理ミドルプラットフォームアーキテクチャ設計と応用

共有は主に次の 5 つのポイントを中心に行われます。リスク管理センターの設計背景戦略のフルサイクル管...

「モノのインターネット +」の考え方は、産業のアップグレードにどのように役立つのでしょうか?

モノのインターネットは、いくつかの自動化ツールを通じて確立された指示に従って対象オブジェクトを接続し...

...

彼らはAIを使って時の塵を拭い去り、半世紀前のアジア競技大会で中国が初めて金メダルを獲得した時の記憶を再現した。

杭州アジア競技大会初の金メダルが誕生した。女子軽量級ダブルスカルボート決勝では、中国の鄒佳琦選手と邱...

効果はGen-2を超えます! Byte の最新ビデオ生成モデルは、一文でハルクに VR メガネをかけさせます

一言で言えば、ハルクに VR メガネをかけさせるのです。 4K品質。パンダのファンタジーの旅これは、...

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

6月19日のニュース:テクノロジーの進歩に伴い、人工知能(AI)が徐々に出版業界に参入し、特にオーデ...