清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入

生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成効果を評価しています。ただし、優れたパフォーマンスを持つ生成モデルは、それが合成する「あらゆる」画像に高品質の効果をもたらすことを意味するわけではありません。ユーザーがアップロードした風景写真を指定されたスタイルにレンダリングするなど、参照画像ベースの生成タスクでは、生成された「単一の」画像の品質を評価できることが、ユーザーエクスペリエンスを向上させるために重要です。

この研究では、参照画像に基づいて生成された単一の画像品質評価方法である参照ガイド付き画像合成評価 (RISA) を提案しました。

RISA の貢献と革新は次のように要約できます。

RISA のトレーニング画像は、GAN トレーニングプロセスの中間モデルによって生成された画像から取得されます。画像の品質ラベルは、モデルの反復回数によって決まります。手動でラベルを付ける必要はなく、理論的にはトレーニングに使用できるデータに上限はありません。
モデルの反復回数はラベルとして十分な精度ではないため、ピクセル単位の補間と複数のバイナリ分類器を使用してトレーニングの安定性を高めます。
参照画像と生成された画像間のスタイルの類似性を学習するために、教師なしの対照学習損失が導入されています。

論文リンク: https://arxiv.org/pdf/2112.04163.pdf

実装戦略

RISA の全体的なフレームワークは非常にシンプルです。参照画像と生成された画像は、パラメータ共有スタイルの抽出器に渡され、対応する特徴ベクトルを取得します。次に、2 つの特徴ベクトル間の L1 距離を計算し、複数のバイナリ分類器に入力して予測ベクトルを取得します。最後に、予測ベクトルの要素を平均して、最終的な品質スコアを取得します。

RISA のトレーニングデータは、GAN トレーニングプロセスにおける一連の中間モデルによって生成された画像から取得されます。下図に示す性別変換タスクを例にとると、GAN トレーニングの初期段階では、トレーニングの反復回数が増えるにつれて、生成された画像の品質が大幅に向上し、トレーニングの後期段階では、モデルによって生成された画像の品質が安定する傾向があることがわかります。

この論文では、中間モデルによって生成された一連の画像を RISA トレーニングデータとして使用し、これらの画像のサンプルラベルは、対応するモデルのトレーニング反復回数によって取得されます。しかし、生成された画像の品質はトレーニングの後期段階では大きく変化しないため、明らかにこの種の注釈はトレーニングの後期段階のモデルには適していません。トレーニングデータをRISAトレーニングに適したものにするために、本論文では、ピクセル単位の補間、つまり画像空間での線形補間の手法を採用し、トレーニングの後期段階での画質の変化を推定します。

下の図に示すように、理想的には、GAN のトレーニングラウンド数の増加に伴って、生成された画像は単調に向上しますが、実際には、単純なタスクの場合、トレーニングの後期段階で生成された画像の品質はほとんど変化しません。一方、難しいタスクの場合、トレーニングの後期段階で生成された画像の品質は、トレーニングラウンド数の増加に伴って振動的に向上する傾向を示します。そこで本論文では、FID曲線の変化のエルボーポイントをGANトレーニングの初期段階と後期段階の境界として選択する。トレーニングの初期段階では、中間モデルを直接サンプリングして画像を生成し、反復回数を画像品質ラベルとして使用する。トレーニングの後期段階では、最初の2つのモデルと最後の2つのモデルを選択して、明らかな品質の違いがある画像を生成し、その後、画像を線形補間して中間品質の一連の画像を取得する。

補間された画像のデモが次のアニメーション図に示されています。図に示されているイプシロンは、2 つの画像を融合するときの重みを表します。

画像空間での補間に加えて、RISA トレーニングの安定性を確保するために、RISA の予測では、単純な回帰器の出力フィッティング値の代わりに、複数のバイナリ分類器の平均出力を使用します。最初のバイナリ分類器は、現在生成された画像の品質が特定のしきい値よりも高い確率を予測するために使用されます。実験では、品質評価を回帰問題から分類問題に変換すると、RISA のパフォーマンスが大幅に向上することが示されています。

損失関数の設計では、次の 3 つの側面が考慮されます。1) 入力参照画像と生成画像のペアおよび対応する品質ラベルを適合させるために使用される弱い監督損失。2) 参照画像と生成画像間のスタイルの類似性を捕捉するために使用される監督なし対照学習損失。3) 実際の画像から 2 つの強化画像のスタイルの一貫性を学習するために使用される上限損失。

上限損失はスタイル情報と全く同じであり、RISAに入力した予測結果は最高の品質スコア1に対応するはずです。

対照学習損失では、まず、画像スタイル情報を破壊せずに、つまり画像のスケーリング、トリミング、反転のみを含めて、2 つの異なるデータ拡張画像と参照画像を作成することを検討します。生成された画像と参照画像は正のサンプルペアを構成し、対照学習損失により予測出力が近づきます。同じ入力サンプルバッチでは、対応する参照画像と対応しない参照画像は負のサンプルペアを構成し、対照学習損失により予測出力が広がります。

実験結果

この論文では、4 つの生成モデルに基づいて、5 つのデータセットで生成された画像に対して複数の RISA モデルをトレーニングします。まず、視覚化の観点から、下の図は、RISA が低品質から高品質まで対応する品質評価スコアを与えることができることを示しています。

次に、定量的指標の観点から、本論文では、RISA の評価結果が人々の主観的な感情と非常によく一致していることを示すために、広範な手動評価テストを実施します。具体的には、各タスクに対して、1 つの参照画像と 2 つの生成画像を含む数千のトリプレットサンプルが選択されました。生成された 2 つの画像は、2 つの異なるトレーニング段階での同じアーキテクチャモデルの中間モデルから取得される場合もあれば、異なるアーキテクチャを持つ 2 つの完全に収束したモデルから取得される場合もあります。テスターは品質の良いものを選ぶように求められました。最後に、各タスクについて、各サンプルグループに少なくとも 3 人のテスターが評価に参加するようにし、一貫した評価を示したすべてのサンプルを保持して、RISA の評価と人々の主観的な感情の一貫性を評価しました。

次の表は、RISA のトレーニングデータとテストデータの両方が同じアーキテクチャのモデルによって生成された場合に対応しています。 RISA の評価構造は、人々の主観的な感覚との整合性が高く、参照の有無にかかわらず、既存の主流の単一画像品質評価方法よりも優れていることがわかります。

次の表は、RISA のトレーニングデータとテストデータの両方が異なるアーキテクチャのモデルによって生成された場合に対応しています。表の結果は、RISA が異なるモデル間で移行する能力に優れていることをさらに示しています。

したがって、トリプレットの RISA と各データセットの最適なベースラインメソッドの視覚的な比較を提供します。 RISA は、生成された画像のリアリティを考慮しながら、生成された画像と参照画像間のスタイルの類似性のレベルを評価できることがわかります。

最後に、研究者らは、RISA による複数のバイナリ分類器、ピクセル単位の補間、およびその各損失項の導入の重要性を示すために、2 セットのアブレーション実験を実施しました。

<<: 「検索」は終わり、「レコメンド」も終わるのか？

>>: スマートレコメンデーションの根底にあるロジックを理解するための4つのステップ

ブログ

Java プログラミングスキル - データ構造とアルゴリズム「フィボナッチ検索」

ブログ

人工知能の今後の発展はどうなるのでしょうか？

ブログ

KreadoAIのアップグレード版がオンラインになり、AIGC戦略の展開が加速しました

ブログ

インターネット技術起業家は、2 つのセッションで提案を行う際にどのような点に重点を置いていますか?

ブログ

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入

実装戦略

実験結果

Java プログラミングスキル - データ構造とアルゴリズム「フィボナッチ検索」

人工知能の今後の発展はどうなるのでしょうか？

KreadoAIのアップグレード版がオンラインになり、AIGC戦略の展開が加速しました

インターネット技術起業家は、2 つのセッションで提案を行う際にどのような点に重点を置いていますか?

推薦する

AIは病気の診断や新薬の設計に大きな可能性を秘めている

人工知能技術は交通にどのように応用できるのでしょうか?

食品産業における人工知能：農家の意思決定を支援する

携帯電話開発者の年収は153万元、機械学習は最高ではない：IEEEの最新給与レポート

集める！ 2017 年の主要な AI イベントを総ざらい！（動画付き）

人工知能の先駆者であるIBM Watsonは殉教者となったのか？ IBMがWatsonを売却、AIは本当に失敗したのか？

美術系の学生は皆AIを崇拝しており、写真はすぐに絵画に描ける

スーパーライティングAIがチェスと作曲を学習。言語モデルの国境を越えた運用が白熱した議論を引き起こし、人々はオンラインでマッチングを求めている

人工知能がチップのルネッサンスを推進

Metaは、パラメータを積み重ねたり、トレーニング時間に依存したりすることなくViTトレーニングプロセスを加速し、スループットを4倍に増加させます。

チューリング賞受賞者のヤン・ルカン氏：今後数十年間の AI 研究の最大の課題は「予測世界モデル」

90年代以降の博士号取得者がアルゴリズムを使って生物の脳を置き換え、生きたマイクロロボットを作成し、サイエンス誌に発表した。

将来、人間は「第3の脳」を持ち、5Gはあらゆるものを高速化する