最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]]

GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため、シーンとオブジェクトのセマンティクスを組み合わせると不合理な画像が生成されやすく、一見すると偽の画像になります。最近、Facebookは史上最強の移行能力を持つと言われるIC-GANモデルをリリースしました。さまざまなシーンやオブジェクトを組み合わせることができ、トレーニングセットに登場しなかったものも完璧に復元できます。雪とラクダを一緒にしても違和感がありません!

生成的敵対的ネットワーク (GAN) は、リアルな画像、抽象的なコラージュ、スタイル転送を生成できる、画像生成の分野で最も強力な AI モデルであると言えます。

しかし、GAN にはニューラル ネットワーク モデルに共通する致命的な欠陥もあります。つまり、GAN には制限があり、通常はトレーニング データセットに密接に関連するオブジェクトまたはシーンの画像しか生成できないということです。

例えば、車の画像でトレーニングしたGANは、車関連の画像であれば極めてリアルに生成できますが、花や動物などのモデルを生成するように要求された場合、生成された画像が物理学などの常識に反する可能性があるため、一見偽物に見える可能性があります。

この問題を解決するために、Facebook AI Research は、リアルでこれまでにない画像の組み合わせを生成できる新しいモデル、Instance-Conditioned GAN (IC-GAN) を提案しました。

https://arxiv.org/abs/2109.05070

たとえば、雪とラクダの写真、または街中のシマウマの写真をシームレスに組み合わせることができます。

コードは現在オープンソースです。

研究者らはカーネル密度推定 (KDE) 手法にヒントを得て、複雑なデータセットの分布をモデル化するためのノンパラメトリック手法を導入しました。 KDE は、各トレーニング データ ポイントの周囲の密度をパラメーター化されたカーネルの混合としてモデル化するノンパラメトリック密度推定器です。

IC-GAN は、各コンポーネントがトレーニングインスタンスに基づいて条件付けされて取得される混合密度推定器として考えることができます。

ただし、KDE ​​とは異なり、IC-GAN はデータ確率を明示的にモデル化するのではなく、条件インスタンスとノイズ ベクトルを入力として受け取るニューラル ネットワークを使用してローカル密度を暗黙的にモデル化する敵対的アプローチを採用しています。

したがって、IC-GAN のカーネルは、処理するデータ ポイントから独立しなくなり、カーネル帯域幅パラメーターの代わりに、識別器に供給する実際のサンプルをサンプリングするインスタンスの近傍サイズを選択することで滑らかさを制御します。

IC-GAN は、データ マニホールドを、データ ポイントとその最も近い近傍によって記述される重複する近傍の混合物に分割し、IC-GAN モデルは各データ ポイントの周囲の分布を学習できます。条件インスタンスの周囲に十分に大きな近傍を選択することで、データが小さなクラスターに過度に分割されることを回避できます。

M 個のデータ サンプルを含むラベルなしデータセットの埋め込み関数 f が与えられた場合、まず f は教師なしトレーニングまたは自己教師トレーニングを使用してトレーニングされ、インスタンスの特徴が抽出されます。

次に、コサイン類似度を使用して、各データ サンプルの k 近傍のセットを定義します。

ジェネレータを使用して条件付き分布p(x | hi)を暗黙的にモデル化する場合、ジェネレータは条件付き分布からのサンプルを単位ガウス事前分布z∼N(0, 1)で変換します。ここで、hiはトレーニングデータから抽出されたインスタンスxiの特徴ベクトルです。

IC-GAN では、ジェネレーターのトレーニングに敵対的アプローチが使用されるため、ジェネレーターと識別器を共同でトレーニングすることができ、識別器は hi の実際の隣接ノードと生成された隣接ポイントを区別するために使用されます。各hiについて、真の近傍はAiから均一にサンプリングされます。

ジェネレータ G と識別器 D は両方とも 2 人のプレイヤーによる最小最大ゲームに参加し、目標に対するナッシュ均衡方程式を見つけようとします。

IC-GAN をトレーニングする際、利用可能なすべてのトレーニング データ ポイントを使用してモデルを微調整します。推論時には、KDE ​​などのノンパラメトリック密度推定法と同様に、IC-GAN のジェネレーターもインスタンス特徴を必要とします。インスタンス特徴は、トレーニング分布または別の分布から取得される場合があります。

この方法は、クラス条件による生成に拡張できます。クラスラベル y に追加のジェネレーターと識別子を追加することで、IC-GAN をクラス条件付き生成に使用できます。 IC-GAN は、インスタンスの表現をジェネレーターとディスクリミネーターへの追加入力として提供し、インスタンスの近傍をディスクリミネーターの実際のサンプルとして使用することで、データ ポイント (インスタンスとも呼ばれます) の近傍の分布をモデル化することを学習します。

離散クラスター インデックスの条件付けとは異なり、インスタンス表現の条件付けにより、ジェネレーターは自然に類似のインスタンスに対して類似のサンプルを生成します。また、一度トレーニングが完了すると、IC-GAN は推論時に条件付きインスタンスを交換するだけで、トレーニング中には見ら​​れなかった他のデータセットに簡単に移行できます。

実験部分では、研究者らは ImageNet および COCO Stuff データセットを使用しました。実験結果では、無条件モデルおよび教師なしデータ分割ベースラインと比較して、IC-GAN がパフォーマンスを大幅に向上したことが示されました。

非選択的ベースライン モデル BigGAN は、トレーニング セット内のすべてのラベルをゼロに設定してトレーニングされます。IC-GAN は、64×64 と 128×128 の両方の解像度で FID スコアと IS スコアの点で以前のすべての方法を上回り、高解像度でより高品質の画像を生成できます。

移行実験を行う際、まず ImageNet 上の BigGAN アーキテクチャを使用して IC-GAN をトレーニングし、テスト中に COCO Stuff インスタンスを使用して画像を生成します。このデータ分割パターンには、オブジェクトの未知の組み合わせが含まれています。 ImageNet でトレーニングされた IC-GAN は、すべてのセグメンテーションにおいて COCO Stuff でトレーニングされた同じモデルよりも優れています (128 解像度でのトレーニング FID は 8.5 対 16.8)。

ImageNet と COCO Stuff のデータ分布がどれだけ近いかを調べるために、研究者は 128×128 解像度で 2 つのデータセットの実際のデータ シーケンス分割間の FID スコアを 37.2 と計算しました。

したがって、IC-GAN の優れた転送能力はデータセットの類似性によって説明できるものではなく、ImageNet で事前トレーニングされた特徴抽出器と特徴生成器の有効性に起因すると考えられます。

COCO Stuff の条件付きインスタンスを ImageNet の条件付きインスタンスに置き換えると、トレーニング FID スコアは 43.5 となり、条件付きインスタンスを変更することで大幅な分布シフトが実現できることが強調されます。

研究者らは、IC-GAN をクラス条件付きのケースに拡張し、意味的に制御可能な生成と ImageNet での比較可能な定量的結果を示しています。

クラス条件付き IC-GAN は、FID と、128×128 解像度での FID スコアを除くすべての解像度の点で BigGAN を上回ります。 BigGAN とは異なり、IC-GAN はインスタンスの特徴を固定してクラス条件を交換するか、クラス条件を固定してインスタンスの特徴を交換することで、生成された画像のセマンティクスを制御できます。

生成された画像は、インスタンスのクラス ラベルとセマンティクスを保持し、ImageNet では未知のシーンである、類似の背景に対する異なる犬種や雪の中のラクダを生成できます。

これらの新しい機能により、IC-GAN は、データセットを拡張して多様なオブジェクトやシーンを含めるための新しい視覚的な例を作成し、アーティストやクリエイターに AI 生成のよりクリエイティブな幅広いコンテンツを提供し、高品質の画像生成の研究を進めるために使用できます。

<<:  エラー率を半分にするには、500 倍以上の計算能力が必要です。ディープラーニングの未来は、単にお金をかけるだけで実現できるのでしょうか?

>>:  200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる

ブログ    
ブログ    

推薦する

AIとIoTが現代の商取引と小売業を強化

小売業界は大きな変革期を迎えています。消費者の購買方法や交流方法が変わり続ける中、小売業者は新たな商...

ビデオ会議に最適な AI アプリケーション

人工知能はさまざまな方法でビジネスを支援しています。 COVID-19パンデミックの間、多くの企業は...

アリババが自社開発の音声認識モデルDFSMNをオープンソース化、精度は最大96.04%

[[232541]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDF...

...

自動運転のフードデリバリーが利用可能に、Meituanがすぐにあらゆるものを配達

北京、首鋼冬季オリンピック公園。最近、「MAI Shop」という小売店がここにオープンし、すぐにネッ...

人工知能を活用した新しい小売無人店舗の発展展望は?

[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...

AI危機の前に、この3つの資質を備えた子供たちが将来勝利するだろう

[[234521]]文|ハオ・ジンファンSF作家第74回ヒューゴー賞受賞者公式アカウント「小唐科学子...

Baidu Apollo がインテリジェント時代のモバイル空間「Apollo II」を正式に開始

2021年8月5日、百度アポロの新世代自動運転ミニバス「アポロII」が広州市黄埔で正式に公開されまし...

ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

音楽に詳しい友人なら、ビートルズを知らない人はいないでしょう。ビートルズは、歴史上最も偉大で最も影響...

Baiduの新しい論文はGram-CTCを提案:単一システムの音声転写が最高レベルに到達

[[188128]]最近、百度シリコンバレーAI研究所の劉海栄氏、李翔剛氏らは、音声認識の速度と精度...

ガートナー:世界のAIチップの収益は2023年に530億ドル、2027年には1194億ドルに達する

8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...

Google の公式 Android Market ランキング アルゴリズムとルール

1. ランキングの計算式にはどのような指標が含まれていますか?指標 A、B、C とは何ですか? 重み...