清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入

生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成効果を評価しています。ただし、優れたパフォーマンスを持つ生成モデルは、それが合成する「あらゆる」画像に高品質の効果をもたらすことを意味するわけではありません。ユーザーがアップロードした風景写真を指定されたスタイルにレンダリングするなど、参照画像ベースの生成タスクでは、生成された「単一の」画像の品質を評価できることが、ユーザー エクスペリエンスを向上させるために重要です。

この研究では、参照画像に基づいて生成された単一の画像品質評価方法である参照ガイド付き画像合成評価 (RISA) を提案しました。

RISA の貢献と革新は次のように要約できます。

  • RISA のトレーニング画像は、GAN トレーニング プロセスの中間モデルによって生成された画像から取得されます。画像の品質ラベルは、モデルの反復回数によって決まります。手動でラベルを付ける必要はなく、理論的にはトレーニングに使用できるデータに上限はありません。
  • モデルの反復回数はラベルとして十分な精度ではないため、ピクセル単位の補間と複数のバイナリ分類器を使用してトレーニングの安定性を高めます。
  • 参照画像と生成された画像間のスタイルの類似性を学習するために、教師なしの対照学習損失が導入されています。


論文リンク: https://arxiv.org/pdf/2112.04163.pdf

実装戦略

RISA の全体的なフレームワークは非常にシンプルです。参照画像と生成された画像は、パラメータ共有スタイルの抽出器に渡され、対応する特徴ベクトルを取得します。次に、2 つの特徴ベクトル間の L1 距離を計算し、複数のバイナリ分類器に入力して予測ベクトルを取得します。最後に、予測ベクトルの要素を平均して、最終的な品質スコアを取得します。

RISA のトレーニング データは、GAN トレーニング プロセスにおける一連の中間モデルによって生成された画像から取得されます。下図に示す性別変換タスクを例にとると、GAN トレーニングの初期段階では、トレーニングの反復回数が増えるにつれて、生成された画像の品質が大幅に向上し、トレーニングの後期段階では、モデルによって生成された画像の品質が安定する傾向があることがわかります。

この論文では、中間モデルによって生成された一連の画像を RISA トレーニング データとして使用し、これらの画像のサンプル ラベルは、対応するモデルのトレーニング反復回数によって取得されます。しかし、生成された画像の品質はトレーニングの後期段階では大きく変化しないため、明らかにこの種の注釈はトレーニングの後期段階のモデルには適していません。トレーニングデータをRISAトレーニングに適したものにするために、本論文では、ピクセル単位の補間、つまり画像空間での線形補間の手法を採用し、トレーニングの後期段階での画質の変化を推定します。

下の図に示すように、理想的には、GAN のトレーニング ラウンド数の増加に伴って、生成された画像は単調に向上しますが、実際には、単純なタスクの場合、トレーニングの後期段階で生成された画像の品質はほとんど変化しません。一方、難しいタスクの場合、トレーニングの後期段階で生成された画像の品質は、トレーニング ラウンド数の増加に伴って振動的に向上する傾向を示します。そこで本論文では、FID曲線の変化のエルボーポイントをGANトレーニングの初期段階と後期段階の境界として選択する。トレーニングの初期段階では、中間モデルを直接サンプリングして画像を生成し、反復回数を画像品質ラベルとして使用する。トレーニングの後期段階では、最初の2つのモデルと最後の2つのモデルを選択して、明らかな品質の違いがある画像を生成し、その後、画像を線形補間して中間品質の一連の画像を取得する。

補間された画像のデモが次のアニメーション図に示されています。図に示されているイプシロンは、2 つの画像を融合するときの重みを表します。

画像空間での補間に加えて、RISA トレーニングの安定性を確保するために、RISA の予測では、単純な回帰器の出力フィッティング値の代わりに、複数のバイナリ分類器の平均出力を使用します。最初のバイナリ分類器は、現在生成された画像の品質が特定のしきい値よりも高い確率を予測するために使用されます。実験では、品質評価を回帰問題から分類問題に変換すると、RISA のパフォーマンスが大幅に向上することが示されています。

損失関数の設計では、次の 3 つの側面が考慮されます。1) 入力参照画像と生成画像のペアおよび対応する品質ラベルを適合させるために使用される弱い監督損失。2) 参照画像と生成画像間のスタイルの類似性を捕捉するために使用される監督なし対照学習損失。3) 実際の画像から 2 つの強化画像のスタイルの一貫性を学習するために使用される上限損失。

上限損失はスタイル情報と全く同じであり、RISAに入力した予測結果は最高の品質スコア1に対応するはずです。

対照学習損失では、まず、画像スタイル情報を破壊せずに、つまり画像のスケーリング、トリミング、反転のみを含めて、2 つの異なるデータ拡張画像と参照画像を作成することを検討します。生成された画像と参照画像は正のサンプルペアを構成し、対照学習損失により予測出力が近づきます。同じ入力サンプルバッチでは、対応する参照画像と対応しない参照画像は負のサンプルペアを構成し、対照学習損失により予測出力が広がります。

実験結果

この論文では、4 つの生成モデルに基づいて、5 つのデータセットで生成された画像に対して複数の RISA モデルをトレーニングします。まず、視覚化の観点から、下の図は、RISA が低品質から高品質まで対応する品質評価スコアを与えることができることを示しています。

次に、定量的指標の観点から、本論文では、RISA の評価結果が人々の主観的な感情と非常によく一致していることを示すために、広範な手動評価テストを実施します。具体的には、各タスクに対して、1 つの参照画像と 2 つの生成画像を含む数千のトリプレット サンプルが選択されました。生成された 2 つの画像は、2 つの異なるトレーニング段階での同じアーキテクチャ モデルの中間モデルから取得される場合もあれば、異なるアーキテクチャを持つ 2 つの完全に収束したモデルから取得される場合もあります。テスターは品質の良いものを選ぶように求められました。最後に、各タスクについて、各サンプル グループに少なくとも 3 人のテスターが評価に参加するようにし、一貫した評価を示したすべてのサンプルを保持して、RISA の評価と人々の主観的な感情の一貫性を評価しました。

次の表は、RISA のトレーニング データとテスト データの両方が同じアーキテクチャのモデルによって生成された場合に対応しています。 RISA の評価構造は、人々の主観的な感覚との整合性が高く、参照の有無にかかわらず、既存の主流の単一画像品質評価方法よりも優れていることがわかります。

次の表は、RISA のトレーニング データとテスト データの両方が異なるアーキテクチャのモデルによって生成された場合に対応しています。表の結果は、RISA が異なるモデル間で移行する能力に優れていることをさらに示しています。

したがって、トリプレットの RISA と各データセットの最適なベースライン メソッドの視覚的な比較を提供します。 RISA は、生成された画像のリアリティを考慮しながら、生成された画像と参照画像間のスタイルの類似性のレベルを評価できることがわかります。

最後に、研究者らは、RISA による複数のバイナリ分類器、ピクセル単位の補間、およびその各損失項の導入の重要性を示すために、2 セットのアブレーション実験を実施しました。

<<:  「検索」は終わり、「レコメンド」も終わるのか?

>>:  スマートレコメンデーションの根底にあるロジックを理解するための4つのステップ

ブログ    
ブログ    
ブログ    

推薦する

...

AIを安全で信頼できるものにするためには、まずアルゴリズムの一般化能力を理解することから始める

ディープラーニング システムは、新しいデータに対してどの程度のパフォーマンス (一般化) を発揮しま...

知湖橋プラットフォームにおける大型モデルの応用と実践

1. 事業の状況及び背景まずはブリッジプラットフォームを紹介します。 Bridge は、Zhihu ...

...

...

AI+ビデオ分析: ユビキタスセキュリティリスクのリアルタイム監視

[[352986]] 2020 年の多くの運用上の課題を踏まえて、公益事業会社は、運用する物理的およ...

...

100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

数年前なら、コンピューターが 10,000 個のニューロンの活動を同時に記録していたらニュースになっ...

中国科学院とディープマインドが協力し、ディープラーニングを使って脳が顔を認識する仕組みを解明

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

柯潔対中国「星陣囲碁」人機対決が今月福州で開催

今月27日、柯潔は福州で再び人工知能と対戦する。対戦相手は中国出身の「Golaxy」。 StarAr...

パーセントポイントの劉一静氏:おそらくこれは人工知能をこのように見るべきだ

[51CTO.comより] 生活各界におけるデータの急速な増加、ビッグデータ技術の発展、高性能コンピ...

...

機械学習の決定木とランダムフォレストモデル

[[206785]]決定木導入決定木は機械学習において非常に一般的な分類方法です。すべてのアルゴリズ...

ストレージ自動化、予測分析、人工知能について知っておくべき6つのこと

現在、人工知能や予測分析などのテクノロジーは、多くのストレージ製品に組み込まれています。これらのテク...