HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

多くのコンテンツ作成プロジェクトでは、単純なスケッチをリアルな絵に変換する必要があります。これには、入力が与えられた自然な画像の条件付き分布を学習するために深層生成モデルを使用する画像間の変換が含まれます。

画像から画像への変換の基本的な概念は、事前にトレーニングされたニューラル ネットワークを使用して、さまざまな自然画像をキャプチャすることです。画像の変換は、多様体を走査し、実行可能な入力セマンティック ポイントを特定することに似ています。合成ネットワークは、潜在空間の任意のサンプリングから信頼性の高い出力を提供するために、多数の画像を使用して事前にトレーニングされています。事前にトレーニングされた合成ネットワークを通じて、下流のトレーニングはユーザー入力をモデルの潜在表現に適応させます。

長年にわたり、多くのタスク固有の方法が SOTA レベルに到達してきましたが、現在のソリューションでは、実用に耐える高忠実度画像を作成するのにまだ苦労しています。

最近の論文で、香港科技大学とマイクロソフトリサーチアジアの研究者らは、画像から画像への変換には事前のトレーニングだけが必要だと主張している。従来のアプローチでは、特殊なアーキテクチャ設計と単一の変換モデルのゼロからのトレーニングが必要であり、特にペアのトレーニング データが不十分な場合は、複雑なシーンを高品質で生成することが困難でした。

したがって、我々は各画像間変換問題を下流タスクとみなし、さまざまな画像間変換に適応するために事前トレーニング済みの拡散モデルを採用した単純な一般的なフレームワークを導入します。彼らは、提案された事前トレーニング済みの画像間翻訳モデルを PITI (事前トレーニングベースの画像間翻訳) と呼びました。さらに、研究者らは、拡散モデルのトレーニングにおけるテクスチャ合成を強化するために敵対的トレーニングを使用することを提案し、それを正規化誘導サンプリングと組み合わせて生成品質を向上させました。

最後に、ADE20K、COCO-Stuff、DIODE などの厳しいベンチマークでさまざまなタスクについて広範な実験的比較を行い、PITI 合成画像が前例のないリアリティと忠実度を示すことを示しました。

  • 論文リンク: https://arxiv.org/pdf/2205.12952.pdf
  • プロジェクトのホームページ: https://tengfei-wang.github.io/PITI/index.html

GANは死んだ、拡散モデル万歳

著者らは、特定のドメインで最高のパフォーマンスを発揮する GAN を使用する代わりに、拡散モデルを使用して多種多様な画像を合成しました。第二に、視覚的な意味を記述する潜在コードと、画像の変動を調整する潜在コードの 2 種類の潜在コードから画像を生成する必要があります。セマンティックな低次元潜在変数は、下流のタスクにとって重要です。そうしないと、モーダル入力を複雑な潜在空間に変換することは不可能です。これを踏まえて、研究者たちは、さまざまな画像を生成できるデータ駆動型モデルである GLIDE を、事前トレーニング済みの生成事前モデルとして使用しました。 GLIDE は潜在テキストを使用するため、意味的な潜在空間が可能になります。

拡散法とスコアベースの方法は、ベンチマーク全体で同等の生成品質を示します。クラス条件付き ImageNet では、これらのモデルは、視覚的な品質とサンプリングの多様性の点で GAN ベースの方法に匹敵します。最近、大規模なテキストと画像のペアでトレーニングされた拡散モデルは驚くべき能力を示しています。訓練された拡散モデルは、合成のための一般的な生成事前確率を提供できます。

フレーム

著者らは、プレテキストタスクを使用して大量のデータを事前トレーニングし、画像統計を予測するための非常に有意義な潜在空間を開発することができました。

下流のタスクでは、タスク固有の環境をマッピングするために、セマンティック空間を条件付きで微調整します。機械は事前にトレーニングされた情報に基づいて、信頼できるビジュアルを作成します。

著者らは、意味入力を使用して拡散モデルを事前トレーニングすることを提案している。彼らは、テキスト条件付けされ、画像トレーニングされた GLIDE モデルを使用しました。 Transformer ネットワークはテキスト入力をエンコードし、拡散モデルのトークンを出力します。計画どおり、テキストをスペースに埋め込むのは理にかなっています。

上の写真は作者の作品です。事前にトレーニングされたモデルを使用すると、ゼロから始める手法と比較して、画像の品質と多様性が向上します。 COCO データセットには多数のカテゴリと組み合わせがあるため、基本的な方法では魅力的なアーキテクチャを備えた美しい結果を提供することはできません。彼らのアプローチは、難しいシーンに対して正確なセマンティクスを備えた豊かな詳細を作成することができます。これらの画像は彼らのアプローチの多様性を示しています。

実験と影響

表 1 は、提案された方法のパフォーマンスが他のモデルよりも常に優れていることを示しています。主要な OASIS と比較すると、PITI はマスクから画像への合成における FID の大幅な改善を実現します。さらに、この方法は、スケッチから画像への合成タスクやジオメトリから画像への合成タスクでも優れたパフォーマンスを示します。

図 3 は、さまざまなタスクにおけるこの研究の視覚化結果を示しています。実験では、事前トレーニング済みモデルを使用すると、最初からトレーニングする方法と比較して、生成される画像の品質と多様性が大幅に向上することが示されています。私たちのアプローチは、困難な生成タスクであっても鮮明な詳細と正しいセマンティクスを生成することができます。

この研究では、Amazon Mechanical Turk の COCO-Stuff でのマスクから画像への合成に関するユーザー調査も実施し、20 人の参加者から 3,000 票を獲得しました。参加者には一度に 2 つの画像が提示され、より現実的な方に投票するよう求められました。表 2 に示すように、提案された方法は、ゼロからのモデルや他のベースラインよりも大幅に優れています。

条件付き画像合成は、特定の条件を満たす高品質の画像を作成します。コンピュータービジョンやグラフィックスの分野では、情報の作成や操作にこれを使用します。大規模な事前トレーニングにより、画像分類、オブジェクト認識、セマンティックセグメンテーションが向上します。大規模な事前トレーニングが一般的な生成タスクに有益であるかどうかは不明です。

エネルギー使用量と二酸化炭素排出量は、画像の事前トレーニングにとって重要な問題です。事前トレーニングはエネルギーを大量に消費しますが、一度だけ実行すれば済みます。条件付き微調整により、下流のタスクで同じ事前トレーニング済みモデルを使用できるようになります。事前トレーニングにより、生成モデルをより少ないトレーニング データでトレーニングできるため、プライバシーの懸念や高額な注釈コストのためにデータが限られている場合でも、画像合成を改善できます。

<<:  AI顧客サービス指標について話す

>>:  生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

ブログ    
ブログ    

推薦する

Google が TensorFlow Lite を Play サービスに導入

近年、大手テクノロジー企業は人工知能と機械学習の研究に力を入れています。その中でも、Googleはこ...

機械学習コードを単体テストするにはどうすればいいですか?

現在、ニューラル ネットワーク コードの単体テストに関する特に包括的なオンライン チュートリアルはあ...

AGI(汎用人工知能)は数年のうちに実現されるでしょうか? 3つのテクノロジー大手が判決を下す

2011年、Google DeepMindの共同創設者であるシェーン・レッグは、2028年までにAI...

マスクの後ろに隠れて沈黙しないでください。AIはあなたが誰であるかを知っています

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

インテリジェントオートメーション: コンピュータビジョン、AI、ARが統合されるとき

インテリジェント オートメーションは、業界がまだビジネスに統合していない、かなり新しい概念です。この...

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用でき...

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

2017年に人工知能が国家戦略目標となって以来、関連産業は急速な発展の機会を迎え、世界で最も収益性の...

快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スク...

...

...

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

1. フェデレーテッドラーニングの背景従来の機械学習手法では、トレーニングのためにデータを単一のマシ...

香港大学の黄凱斌氏:6G時代のエッジインテリジェンス、シャノンとチューリングの出会い

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

エンドツーエンドの自動運転に向けて、Horizo​​n Robotics が Sparse4D アルゴリズムを正式にオープンソース化

Horizo​​n Roboticsは1月22日、純粋な視覚ベースの自動運転アルゴリズムであるSpa...

SQLデータベースに基づくアルゴリズムを学ぶ

データベースは、データを保存し、大規模な計算を実行する場所です。現実世界の問題を解決するために、デー...