清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入

生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成効果を評価しています。ただし、優れたパフォーマンスを持つ生成モデルは、それが合成する「あらゆる」画像に高品質の効果をもたらすことを意味するわけではありません。ユーザーがアップロードした風景写真を指定されたスタイルにレンダリングするなど、参照画像ベースの生成タスクでは、生成された「単一の」画像の品質を評価できることが、ユーザー エクスペリエンスを向上させるために重要です。

この研究では、参照画像に基づいて生成された単一の画像品質評価方法である参照ガイド付き画像合成評価 (RISA) を提案しました。

RISA の貢献と革新は次のように要約できます。

  • RISA のトレーニング画像は、GAN トレーニング プロセスの中間モデルによって生成された画像から取得されます。画像の品質ラベルは、モデルの反復回数によって決まります。手動でラベルを付ける必要はなく、理論的にはトレーニングに使用できるデータに上限はありません。
  • モデルの反復回数はラベルとして十分な精度ではないため、ピクセル単位の補間と複数のバイナリ分類器を使用してトレーニングの安定性を高めます。
  • 参照画像と生成された画像間のスタイルの類似性を学習するために、教師なしの対照学習損失が導入されています。


論文リンク: https://arxiv.org/pdf/2112.04163.pdf

実装戦略

RISA の全体的なフレームワークは非常にシンプルです。参照画像と生成された画像は、パラメータ共有スタイルの抽出器に渡され、対応する特徴ベクトルを取得します。次に、2 つの特徴ベクトル間の L1 距離を計算し、複数のバイナリ分類器に入力して予測ベクトルを取得します。最後に、予測ベクトルの要素を平均して、最終的な品質スコアを取得します。

RISA のトレーニング データは、GAN トレーニング プロセスにおける一連の中間モデルによって生成された画像から取得されます。下図に示す性別変換タスクを例にとると、GAN トレーニングの初期段階では、トレーニングの反復回数が増えるにつれて、生成された画像の品質が大幅に向上し、トレーニングの後期段階では、モデルによって生成された画像の品質が安定する傾向があることがわかります。

この論文では、中間モデルによって生成された一連の画像を RISA トレーニング データとして使用し、これらの画像のサンプル ラベルは、対応するモデルのトレーニング反復回数によって取得されます。しかし、生成された画像の品質はトレーニングの後期段階では大きく変化しないため、明らかにこの種の注釈はトレーニングの後期段階のモデルには適していません。トレーニングデータをRISAトレーニングに適したものにするために、本論文では、ピクセル単位の補間、つまり画像空間での線形補間の手法を採用し、トレーニングの後期段階での画質の変化を推定します。

下の図に示すように、理想的には、GAN のトレーニング ラウンド数の増加に伴って、生成された画像は単調に向上しますが、実際には、単純なタスクの場合、トレーニングの後期段階で生成された画像の品質はほとんど変化しません。一方、難しいタスクの場合、トレーニングの後期段階で生成された画像の品質は、トレーニング ラウンド数の増加に伴って振動的に向上する傾向を示します。そこで本論文では、FID曲線の変化のエルボーポイントをGANトレーニングの初期段階と後期段階の境界として選択する。トレーニングの初期段階では、中間モデルを直接サンプリングして画像を生成し、反復回数を画像品質ラベルとして使用する。トレーニングの後期段階では、最初の2つのモデルと最後の2つのモデルを選択して、明らかな品質の違いがある画像を生成し、その後、画像を線形補間して中間品質の一連の画像を取得する。

補間された画像のデモが次のアニメーション図に示されています。図に示されているイプシロンは、2 つの画像を融合するときの重みを表します。

画像空間での補間に加えて、RISA トレーニングの安定性を確保するために、RISA の予測では、単純な回帰器の出力フィッティング値の代わりに、複数のバイナリ分類器の平均出力を使用します。最初のバイナリ分類器は、現在生成された画像の品質が特定のしきい値よりも高い確率を予測するために使用されます。実験では、品質評価を回帰問題から分類問題に変換すると、RISA のパフォーマンスが大幅に向上することが示されています。

損失関数の設計では、次の 3 つの側面が考慮されます。1) 入力参照画像と生成画像のペアおよび対応する品質ラベルを適合させるために使用される弱い監督損失。2) 参照画像と生成画像間のスタイルの類似性を捕捉するために使用される監督なし対照学習損失。3) 実際の画像から 2 つの強化画像のスタイルの一貫性を学習するために使用される上限損失。

上限損失はスタイル情報と全く同じであり、RISAに入力した予測結果は最高の品質スコア1に対応するはずです。

対照学習損失では、まず、画像スタイル情報を破壊せずに、つまり画像のスケーリング、トリミング、反転のみを含めて、2 つの異なるデータ拡張画像と参照画像を作成することを検討します。生成された画像と参照画像は正のサンプルペアを構成し、対照学習損失により予測出力が近づきます。同じ入力サンプルバッチでは、対応する参照画像と対応しない参照画像は負のサンプルペアを構成し、対照学習損失により予測出力が広がります。

実験結果

この論文では、4 つの生成モデルに基づいて、5 つのデータセットで生成された画像に対して複数の RISA モデルをトレーニングします。まず、視覚化の観点から、下の図は、RISA が低品質から高品質まで対応する品質評価スコアを与えることができることを示しています。

次に、定量的指標の観点から、本論文では、RISA の評価結果が人々の主観的な感情と非常によく一致していることを示すために、広範な手動評価テストを実施します。具体的には、各タスクに対して、1 つの参照画像と 2 つの生成画像を含む数千のトリプレット サンプルが選択されました。生成された 2 つの画像は、2 つの異なるトレーニング段階での同じアーキテクチャ モデルの中間モデルから取得される場合もあれば、異なるアーキテクチャを持つ 2 つの完全に収束したモデルから取得される場合もあります。テスターは品質の良いものを選ぶように求められました。最後に、各タスクについて、各サンプル グループに少なくとも 3 人のテスターが評価に参加するようにし、一貫した評価を示したすべてのサンプルを保持して、RISA の評価と人々の主観的な感情の一貫性を評価しました。

次の表は、RISA のトレーニング データとテスト データの両方が同じアーキテクチャのモデルによって生成された場合に対応しています。 RISA の評価構造は、人々の主観的な感覚との整合性が高く、参照の有無にかかわらず、既存の主流の単一画像品質評価方法よりも優れていることがわかります。

次の表は、RISA のトレーニング データとテスト データの両方が異なるアーキテクチャのモデルによって生成された場合に対応しています。表の結果は、RISA が異なるモデル間で移行する能力に優れていることをさらに示しています。

したがって、トリプレットの RISA と各データセットの最適なベースライン メソッドの視覚的な比較を提供します。 RISA は、生成された画像のリアリティを考慮しながら、生成された画像と参照画像間のスタイルの類似性のレベルを評価できることがわかります。

最後に、研究者らは、RISA による複数のバイナリ分類器、ピクセル単位の補間、およびその各損失項の導入の重要性を示すために、2 セットのアブレーション実験を実施しました。

<<:  「検索」は終わり、「レコメンド」も終わるのか?

>>:  スマートレコメンデーションの根底にあるロジックを理解するための4つのステップ

ブログ    
ブログ    

推薦する

...

BEVFusionを超えて!高速かつシンプルなBEV統合展開ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ネイチャー長文記事:AIのブラックボックスを破るための「長期戦」

2020年2月、COVID-19が世界中で急速に広がり、抗原検査の入手が困難になったため、一部の医...

工業情報化部:中国初の個人情報保護AIモデル「智慧」アシスタントをリリース

2月29日、工業情報化省は2023年第4四半期の電気通信サービスの品質に関する通知を発行した。通知で...

金融技術分野における人工知能と機械学習の応用と開発

[[383269]] [51CTO.com クイック翻訳] 過去数年間、金融業界では、業界の絶え間な...

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声...

...

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?

12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...

AIは旅行業界の困難を軽減できるか?

[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...

人工知能がスマートファクトリーにもたらす力

現在、製造業における人工知能技術の応用が急成長しています。自社にとって適切な人工知能ツールをどのよう...

「ロボットツアーガイド」の導入により、観光体験に斬新さが加わる

近年、科学技術の進歩に牽引され、知能ロボットは目覚ましい発展を遂げています。チップ、視覚システム、セ...

...

より良いAIでより良い社会を築く

人工知能 (AI) には、従来のエンジニアリング システムからヘルスケア、芸術やエンターテイメントの...

...

2019年にAI分野で何が起こったのでしょうか?

2019年は確かに忙しい年でした。人工知能に関する進歩やニュースが頻繁に報道されるにつれ、私たちの...