HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

多くのコンテンツ作成プロジェクトでは、単純なスケッチをリアルな絵に変換する必要があります。これには、入力が与えられた自然な画像の条件付き分布を学習するために深層生成モデルを使用する画像間の変換が含まれます。

画像から画像への変換の基本的な概念は、事前にトレーニングされたニューラル ネットワークを使用して、さまざまな自然画像をキャプチャすることです。画像の変換は、多様体を走査し、実行可能な入力セマンティック ポイントを特定することに似ています。合成ネットワークは、潜在空間の任意のサンプリングから信頼性の高い出力を提供するために、多数の画像を使用して事前にトレーニングされています。事前にトレーニングされた合成ネットワークを通じて、下流のトレーニングはユーザー入力をモデルの潜在表現に適応させます。

長年にわたり、多くのタスク固有の方法が SOTA レベルに到達してきましたが、現在のソリューションでは、実用に耐える高忠実度画像を作成するのにまだ苦労しています。

最近の論文で、香港科技大学とマイクロソフトリサーチアジアの研究者らは、画像から画像への変換には事前のトレーニングだけが必要だと主張している。従来のアプローチでは、特殊なアーキテクチャ設計と単一の変換モデルのゼロからのトレーニングが必要であり、特にペアのトレーニング データが不十分な場合は、複雑なシーンを高品質で生成することが困難でした。

したがって、我々は各画像間変換問題を下流タスクとみなし、さまざまな画像間変換に適応するために事前トレーニング済みの拡散モデルを採用した単純な一般的なフレームワークを導入します。彼らは、提案された事前トレーニング済みの画像間翻訳モデルを PITI (事前トレーニングベースの画像間翻訳) と呼びました。さらに、研究者らは、拡散モデルのトレーニングにおけるテクスチャ合成を強化するために敵対的トレーニングを使用することを提案し、それを正規化誘導サンプリングと組み合わせて生成品質を向上させました。

最後に、ADE20K、COCO-Stuff、DIODE などの厳しいベンチマークでさまざまなタスクについて広範な実験的比較を行い、PITI 合成画像が前例のないリアリティと忠実度を示すことを示しました。

  • 論文リンク: https://arxiv.org/pdf/2205.12952.pdf
  • プロジェクトのホームページ: https://tengfei-wang.github.io/PITI/index.html

GANは死んだ、拡散モデル万歳

著者らは、特定のドメインで最高のパフォーマンスを発揮する GAN を使用する代わりに、拡散モデルを使用して多種多様な画像を合成しました。第二に、視覚的な意味を記述する潜在コードと、画像の変動を調整する潜在コードの 2 種類の潜在コードから画像を生成する必要があります。セマンティックな低次元潜在変数は、下流のタスクにとって重要です。そうしないと、モーダル入力を複雑な潜在空間に変換することは不可能です。これを踏まえて、研究者たちは、さまざまな画像を生成できるデータ駆動型モデルである GLIDE を、事前トレーニング済みの生成事前モデルとして使用しました。 GLIDE は潜在テキストを使用するため、意味的な潜在空間が可能になります。

拡散法とスコアベースの方法は、ベンチマーク全体で同等の生成品質を示します。クラス条件付き ImageNet では、これらのモデルは、視覚的な品質とサンプリングの多様性の点で GAN ベースの方法に匹敵します。最近、大規模なテキストと画像のペアでトレーニングされた拡散モデルは驚くべき能力を示しています。訓練された拡散モデルは、合成のための一般的な生成事前確率を提供できます。

フレーム

著者らは、プレテキストタスクを使用して大量のデータを事前トレーニングし、画像統計を予測するための非常に有意義な潜在空間を開発することができました。

下流のタスクでは、タスク固有の環境をマッピングするために、セマンティック空間を条件付きで微調整します。機械は事前にトレーニングされた情報に基づいて、信頼できるビジュアルを作成します。

著者らは、意味入力を使用して拡散モデルを事前トレーニングすることを提案している。彼らは、テキスト条件付けされ、画像トレーニングされた GLIDE モデルを使用しました。 Transformer ネットワークはテキスト入力をエンコードし、拡散モデルのトークンを出力します。計画どおり、テキストをスペースに埋め込むのは理にかなっています。

上の写真は作者の作品です。事前にトレーニングされたモデルを使用すると、ゼロから始める手法と比較して、画像の品質と多様性が向上します。 COCO データセットには多数のカテゴリと組み合わせがあるため、基本的な方法では魅力的なアーキテクチャを備えた美しい結果を提供することはできません。彼らのアプローチは、難しいシーンに対して正確なセマンティクスを備えた豊かな詳細を作成することができます。これらの画像は彼らのアプローチの多様性を示しています。

実験と影響

表 1 は、提案された方法のパフォーマンスが他のモデルよりも常に優れていることを示しています。主要な OASIS と比較すると、PITI はマスクから画像への合成における FID の大幅な改善を実現します。さらに、この方法は、スケッチから画像への合成タスクやジオメトリから画像への合成タスクでも優れたパフォーマンスを示します。

図 3 は、さまざまなタスクにおけるこの研究の視覚化結果を示しています。実験では、事前トレーニング済みモデルを使用すると、最初からトレーニングする方法と比較して、生成される画像の品質と多様性が大幅に向上することが示されています。私たちのアプローチは、困難な生成タスクであっても鮮明な詳細と正しいセマンティクスを生成することができます。

この研究では、Amazon Mechanical Turk の COCO-Stuff でのマスクから画像への合成に関するユーザー調査も実施し、20 人の参加者から 3,000 票を獲得しました。参加者には一度に 2 つの画像が提示され、より現実的な方に投票するよう求められました。表 2 に示すように、提案された方法は、ゼロからのモデルや他のベースラインよりも大幅に優れています。

条件付き画像合成は、特定の条件を満たす高品質の画像を作成します。コンピュータービジョンやグラフィックスの分野では、情報の作成や操作にこれを使用します。大規模な事前トレーニングにより、画像分類、オブジェクト認識、セマンティックセグメンテーションが向上します。大規模な事前トレーニングが一般的な生成タスクに有益であるかどうかは不明です。

エネルギー使用量と二酸化炭素排出量は、画像の事前トレーニングにとって重要な問題です。事前トレーニングはエネルギーを大量に消費しますが、一度だけ実行すれば済みます。条件付き微調整により、下流のタスクで同じ事前トレーニング済みモデルを使用できるようになります。事前トレーニングにより、生成モデルをより少ないトレーニング データでトレーニングできるため、プライバシーの懸念や高額な注釈コストのためにデータが限られている場合でも、画像合成を改善できます。

<<:  AI顧客サービス指標について話す

>>:  生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

ブログ    
ブログ    
ブログ    

推薦する

スマートインフラがコミュニティを良くする5つの方法

フロスト&サリバンによる最近の分析によると、スマートシティ技術への世界的な投資は2025年までに22...

考えてみてください。連合学習は大規模な言語モデルをトレーニングできるのでしょうか?

1. 概要大規模言語モデル (LLM) の急速な発展に伴い、LLM が人工知能業界の発展に与える影...

...

...

疫病と闘う最前線の医療従事者を守るためにAIをどう活用するか?

私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...

WOTカンファレンスは11月に深センで開催されます!テクノロジー界の「トップグループチャット」をお見逃しなく

数日前に話題になった「中国ビッグモデル「トップストリームグループチャット」ノート」を見た人は多いはず...

人工知能時代のセキュリティ専門職とは?

人工知能の時代におけるセキュリティ専門職は何かという問題は、徐々に人々が直面しなければならない問題に...

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

...

OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御

ChatGPTのリリースにより、大規模な言語モデルのアプリケーションが加速し、大規模に展開されていま...

...

...

自然言語処理がビジネスインテリジェンスの未来である理由

Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...

多言語自然言語処理 (NLP) で言語の壁を打ち破ります!

自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。自然言語処...