CMU と Adobe が協力: GAN モデルは事前トレーニングの時代を先導し、トレーニングサンプルのわずか 1% しか必要としません

事前トレーニングの時代に入ってから、視覚認識モデルのパフォーマンスは急速に向上しましたが、生成的敵対的ネットワーク (GAN) などの画像生成モデルは遅れをとっているようです。

通常、GAN のトレーニングは教師なしでゼロから行われるため、時間と労力がかかるだけでなく、ビッグデータによる大規模な事前トレーニングで得た「知識」が活用されないという損失が生じませんか?

さらに、画像生成自体が、現実世界の視覚現象における複雑な統計データをキャプチャしてシミュレートできる必要があります。そうでないと、生成された画像は物理世界の法則に従わず、一目で「偽物」と識別されてしまいます。

事前トレーニング済みモデルは知識を提供し、GAN モデルは生成機能を提供します。この 2 つを組み合わせると素晴らしい結果が得られます。

問題は、GAN モデルの生成能力を向上させるために、どの事前トレーニング済みモデルをどのように組み合わせるかということです。

最近、CMU と Adobe の研究者が CVPR 2022 で、事前トレーニング済みモデルと GAN モデルのトレーニングを「選択」方式で組み合わせた記事を発表しました。

論文リンク: https://arxiv.org/abs/2112.09130

プロジェクトリンク: https://github.com/nupurkmr9/vision-aided-gan

ビデオリンク: https://www.youtube.com/watch?v=oHdyJNdQ9E4

GAN モデルのトレーニングプロセスは、識別器とジェネレーターで構成されます。識別器は、実際のサンプルと生成されたサンプルを区別するための関連統計を学習するために使用され、ジェネレーターの目的は、生成された画像を実際の分布にできるだけ近づけることです。

理想的には、識別器は生成された画像と実際の画像間の分布ギャップを測定できる必要があります。

ただし、データ量が非常に限られている場合、大規模な事前トレーニング済みモデルを識別器として直接使用すると、ジェネレーターが「容赦なく粉砕」され、「過剰適合」してしまう可能性が高くなります。

FFHQ 1k データセットでの実験では、最新の微分可能データ拡張方法を使用しても、識別器は依然として過剰適合し、トレーニングセットでは優れたパフォーマンスを発揮しますが、検証セットではパフォーマンスが低下することが示されています。

さらに、識別器は、人間には識別できないが機械には明らかな偽装に焦点を当てる場合があります。

識別器と生成器の機能のバランスをとるために、研究者らは、一連の異なる事前トレーニング済みモデルの表現を識別器として組み合わせることを提案した。

このアプローチには 2 つの利点があります。

1. 事前トレーニング済みの特徴に基づいて浅い分類器をトレーニングすることは、過剰適合を減らしながら、小規模データセットに深層ネットワークを適応させる一般的な方法です。

つまり、事前トレーニング済みモデルのパラメータを固定し、その上に軽量の分類ネットワークを追加するだけで、安定したトレーニングプロセスを提供できます。

例えば、上記の実験のOurs曲線からは、検証セットの精度がStyleGAN2-ADAよりもはるかに高いことがわかります。

2. 最近の研究では、ディープネットワークが、低レベルの視覚的手がかり (エッジやテクスチャ) から高レベルの概念 (オブジェクトやオブジェクトの一部) まで、意味のある視覚的概念を捉えられることも実証されています。

これらの特徴に基づいて構築された識別器は、人間の知覚とより一致する可能性があります。

また、複数の事前トレーニング済みモデルを組み合わせることで、ジェネレーターが異なる補完的な特徴空間内の実際の分布と一致するように促進できます。

最適な事前トレーニング済みネットワークを選択するために、研究者はまず、分類用の VGG-16、検出とセグメンテーション用の Swin-T などを含む複数の sota モデルを収集して「モデルバンク」を形成しました。

次に、特徴空間における実際の画像と偽の画像の線形セグメンテーションに基づく自動モデル検索戦略を提案し、ラベルの平滑化と微分化可能な強化技術を使用して、モデルトレーニングをさらに安定させ、過剰適合を減らします。

具体的には、実際のトレーニングサンプルと生成された画像の結合が、トレーニングセットと検証セットに分割されます。

事前トレーニング済みの各モデルについて、サンプルが実際のサンプルからのものか生成されたものか分類するようにロジスティック線形判別器がトレーニングされ、検証分割の「負のバイナリクロスエントロピー損失」を使用して分布ギャップが測定され、エラーが最小のモデルが返されます。

検証エラーが低いほど線形プローブの精度が高くなり、これらの特徴が実際のサンプルと生成されたサンプルを区別するのに役立ち、これらの特徴を使用するとジェネレーターにさらに有用なフィードバックを提供できることを示しています。

FFHQ および LSUN CAT データセットからの 1,000 個のトレーニングサンプルを使用して、GAN トレーニングを経験的に検証しました。

結果は、事前トレーニング済みモデルでトレーニングされた GAN の方が線形検出精度が高く、一般的に FID メトリックがより優れていることを示しています。

複数の既製モデルからのフィードバックを取り入れるために、次の 2 つのモデル選択とアンサンブル戦略も検討します。

1) K固定モデル選択戦略。これは、トレーニングの開始時にK個の最良の既製モデルを選択し、収束するまでトレーニングします。

2) K プログレッシブモデル選択戦略。これは、一定回数の反復後に、パフォーマンスが最も優れたモデルと未使用のモデルを反復的に選択して追加します。

実験結果によると、K 固定戦略と比較して、プログレッシブアプローチは計算の複雑さが低く、データ分布の違いを捉えるために事前トレーニング済みモデルを選択するのにも役立つことがわかりました。たとえば、プログレッシブ戦略によって選択される最初の 2 つのモデルは、通常、自己教師ありモデルと教師ありモデルのペアです。

この記事の実験は主に進歩的です。

最終的なトレーニングアルゴリズムでは、まず標準的な敵対的損失を使用して GAN をトレーニングします。

ベースラインジェネレーターが与えられれば、線形プローブを使用して最適な事前トレーニング済みモデルを検索し、トレーニング中に損失目的関数を導入できます。

K プログレッシブ戦略では、利用可能な実際のトレーニングサンプルの数に比例する固定回数の反復トレーニングを行った後、前の段階で最適なトレーニングセット FID を使用して、新しい視覚支援識別子がスナップショットに追加されます。

トレーニング中、水平反転によってデータ拡張が実行され、微分可能拡張手法と片側ラベルスムージングが正規化項として使用されます。

また、既製のモデルのみを識別器として使用すると発散が生じますが、オリジナルの識別器と事前トレーニング済みモデルを組み合わせると、この状況が改善されることがわかります。

最後の実験では、FFHQ、LSUN CAT、および LSUN CHURCH データセットのトレーニングサンプル数が 1k から 10k まで変化した場合の結果を示します。

すべての設定において、FID は大幅に改善され、データが限られたシナリオでのアプローチの有効性が実証されています。

この方法とStyleGAN2-ADAの違いを定性的に分析するために、2つの方法で生成されたサンプルの品質に応じて、本論文で提案された新しい方法は、特にFFHQとLSUN CATの場合、最悪のサンプルの品質を向上させることができます。

次の識別器を徐々に追加していくと、事前トレーニング済みモデルの特徴に対する線形検出の精度が徐々に低下していることがわかります。これは、ジェネレーターが強力になっていることを意味します。

全体として、わずか 1 万個のトレーニングサンプルで、私たちの方法は LSUN CAT で、160 万枚の画像でトレーニングされた StyleGAN2 と同等の FID パフォーマンスを達成します。

完全なデータセットでは、この方法により、LSUN の猫、教会、馬のカテゴリで FID が 1.5 ～ 2 倍向上します。

著者のリチャード・チャンは、カリフォルニア大学バークレー校で博士号を取得し、コーネル大学で学士号と修士号を取得しました。主な研究対象には、コンピュータービジョン、機械学習、ディープラーニング、グラフィックス、画像処理などがあり、インターンシップや大学を通じて学術研究者と協力することがよくあります。

著者のジュンヤン・チューは、カーネギーメロン大学コンピュータサイエンス学部のロボット工学研究所の助教授です。また、コンピュータサイエンス学部と機械学習学部でも役職を務めています。主な研究分野は、コンピュータビジョン、コンピュータグラフィックス、機械学習、計算写真学です。

CMU に入社する前は、Adobe Research の研究科学者でした。彼は清華大学で学士号を取得し、カリフォルニア大学バークレー校で博士号を取得した後、MIT CSAILで博士研究員として勤務しました。

<<: 企業は適切なAI推論を得る方法を知る必要がある

>>: MITの研究者はAIを使って自動運転車が赤信号でアイドリングを回避できるように支援する

【人工知能】人間と機械の対決知能技術の総合レビュー

ブログ

今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された

ブログ

単一のGPUではGPT-3をトレーニングすることはできませんが、これを使用するとハイパーパラメータを調整できます。

CMU と Adobe が協力: GAN モデルは事前トレーニングの時代を先導し、トレーニングサンプルのわずか 1% しか必要としません

【人工知能】人間と機械の対決知能技術の総合レビュー

今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された

単一のGPUではGPT-3をトレーニングすることはできませんが、これを使用するとハイパーパラメータを調整できます。

CPP アルゴリズム問題のための共通コンテナ技術

2020 年のベスト AI ソフトウェア開発ツール

推薦する

エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

AI支援農業建築：農業生産効率の向上

Java プログラミングスキル - データ構造とアルゴリズム「非再帰的バイナリ検索」

マイクロソフトがAIコンテンツレビューツール「Azure AI Content Safety」を正式にリリース

CCTV、春節に初めてバーチャル司会者サ・ベイニン氏を迎える

OpenAIのスーパーアライメントチームの取り組み

AI がモノのインターネットをよりスマートにする 5 つの方法

マイクロソフトがクロスプラットフォームフレームワーク ML.NET 3.0 を発表: ディープラーニング機能を強化し、AI コンピューティングの効率を向上

現代の製造業におけるマシンビジョンと人工知能の重要な役割

中学校の知識を使って機械学習が何をしているのかを理解する方法