従来のGANを解釈可能に修正し、畳み込みカーネルの解釈可能性と生成された画像の真正性が保証される

論文アドレス: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
著者所属機関: 中国科学院計算技術研究所、上海交通大学、志江実験室

研究の背景と研究課題

生成的敵対的ネットワーク (GAN) は高解像度画像の生成に大きな成功を収めており、その解釈可能性に関する研究も近年広く注目を集めています。

この分野では、GAN に分離した表現を学習させる方法が依然として大きな課題となっています。 GAN のいわゆる分離表現とは、表現の各部分が生成された画像の特定の側面にのみ影響を与えることを意味します。 GAN 分離表現に関するこれまでの研究では、さまざまな視点に焦点が当てられてきました。

たとえば、下の図 1 では、方法 1 によって画像の構造とスタイルが分離されています。方法 2 は、画像内のローカルオブジェクトの特徴を学習します。方法 3 は、顔画像の年齢属性や性別属性など、画像内の属性の分離された特徴を学習します。しかし、これらの研究では、GAN におけるさまざまな視覚概念 (顔の目、鼻、口などの部分) の明確で象徴的な表現を提供できませんでした。

図1: 他のGAN分離表現手法との視覚的な比較

この目的のために、研究者らは、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案しました。これにより、ジェネレーターの中間層の畳み込みカーネルが分離されたローカル視覚概念を学習できるようになります。具体的には、以下の図 2 に示すように、従来の GAN と比較して、説明可能な GAN の中間層の各畳み込みカーネルは、異なる画像を生成するときに常に特定の視覚概念を表し、異なる畳み込みカーネルは異なる視覚概念を表します。

図2: 解釈可能なGANと従来のGANエンコーディング表現の視覚的な比較

モデリングアプローチ

説明可能な GAN の学習は、畳み込みカーネルの解釈可能性と生成された画像の信憑性という 2 つの目標を満たす必要があります。

畳み込みカーネルの解釈可能性: 研究者は、中間層の畳み込みカーネルが、視覚概念を手動でラベル付けする必要なく、意味のある視覚概念を自動的に学習できることを期待しています。具体的には、各畳み込みカーネルは、異なる画像を生成するときに、同じ視覚概念に対応する画像領域を安定して生成する必要があります。異なる畳み込みカーネルは、異なる視覚概念に対応する画像領域を生成する必要があります。
生成された画像のリアリティ: ExplainableGAN のジェネレーターは、依然としてリアルな画像を生成できます。

ターゲットレイヤーの畳み込みカーネルの解釈可能性を確保するために、研究者は、複数の畳み込みカーネルが視覚概念に対応する類似の領域を生成する場合、通常、それらのカーネルは共同でこの視覚概念を表すことに気付きました。

したがって、特定の視覚概念を共同で表現するために畳み込みカーネルのセットを使用し、異なる視覚概念を個別に表現するために異なる畳み込みカーネルのセットを使用します。

同時に生成された画像の信憑性を保証するために、研究者らは以下の損失関数を設計し、従来の GAN を解釈可能な GAN に修正しました。

従来の GAN 損失: この損失は、生成された画像の信頼性を確保するために使用されます。
畳み込みカーネルの分割損失: ジェネレーターが与えられた場合、この損失は、同じグループ内のカーネルが同様の画像領域を生成するように畳み込みカーネルを分割する方法を見つけるために使用されます。具体的には、ガウス混合モデル (GMM) を使用して、畳み込みカーネルを分割して、各グループの畳み込みカーネルの特徴マップが同様の神経活性化を持つようにする方法を学習しました。
エネルギーモデルの信頼性の損失: ターゲットレイヤーの畳み込みカーネルが分割される方法を考えると、同じグループ内の各畳み込みカーネルに同じ視覚概念を生成するように強制すると、生成される画像の品質が低下する可能性があります。生成された画像の真正性をさらに保証するために、エネルギーモデルを使用してターゲットレイヤーの特徴マップの真正性確率を出力し、最大尤度推定を採用してエネルギーモデルのパラメータを学習しました。
畳み込みカーネルの解釈可能性損失: ターゲットレイヤーの畳み込みカーネル分割方法を考慮すると、この損失は畳み込みカーネルの解釈可能性をさらに向上させるために使用されます。具体的には、この損失により、同じグループ内の各畳み込みカーネルは同じ画像領域を一意に生成しますが、異なるグループ内の畳み込みカーネルは異なる画像領域を生成します。

実験結果

実験では、研究者らは解釈可能な GAN を定性的にも定量的にも評価しました。

定性分析では、各畳み込みカーネルの特徴マップを視覚化し、異なる画像間で畳み込みカーネルによって表される視覚概念の一貫性を評価しました。下の図 3 に示すように、説明可能な GAN では、各畳み込みカーネルは異なる画像を生成するときに常に同じ視覚概念に対応する画像領域を生成しますが、異なる畳み込みカーネルは異なる視覚概念に対応する画像領域を生成します。

図3: 解釈可能なGANにおける特徴マップの視覚化

実験では、図4(a)に示すように、各畳み込みカーネルのグループのグループ中心と畳み込みカーネル間の受容野の違いも比較しました。図4（b）は、説明可能なGANにおけるさまざまな視覚概念に対応する畳み込みカーネルの数の比率を示しています。図 4 (c) は、異なる数の畳み込みカーネルグループを選択した場合、解釈可能な GAN のグループ数が増えるほど、学習される視覚概念がより詳細になることを示しています。

図4: 説明可能なGANの定性評価

説明可能な GAN は、生成された画像上の特定の視覚概念の変更もサポートします。たとえば、解釈可能なレイヤー内の対応する特徴マップを交換することで、画像間の特定の視覚概念の相互作用を実現できます。つまり、ローカル/グローバルの顔の交換を完了できます。

下の図 5 は、画像のペア間で口、髪、鼻を入れ替えた結果を示しています。最後の列には、変更された画像と元の画像の違いが表示されます。この結果は、私たちの方法が他の無関係な領域を変更せずに、局所的な視覚概念のみを変更することを示しています。

図5: 生成された画像と特定の視覚概念の交換

さらに、下の図6は、顔全体を交換した場合の彼らの方法の効果も示しています。

図6: 生成された画像の面全体を交換

定量分析のために、研究者らは顔認証実験を用いて顔交換結果の精度を評価した。具体的には、顔画像のペアが与えられた場合、元の画像の顔がソース画像の顔に置き換えられ、変更された画像が生成されます。次に、変更された画像の顔がソース画像の顔と同じ ID を持つかどうかをテストします。

下の表 1 は、さまざまな方法による顔認証結果の精度を示しています。この方法は、アイデンティティ保存の点で他の顔スワッピング方法よりも優れています。

表1: 顔交換の精度評価

さらに、特定の視覚概念を変更する際の私たちの方法の局所性が実験で評価されます。具体的には、研究者らは、RGB空間における元の画像と修正された画像の間の平均二乗誤差（MSE）を計算し、特定の視覚概念について、領域外のMSEと領域内のMSEの比率を局所性評価の実験指標として使用しました。

結果は下の表2に示されています。研究者の修正方法は局所性が優れており、修正された視覚概念の外側の画像領域の変化が少なくなっています。

表2: 修正された視覚概念のローカル評価