研究の背景と研究課題生成的敵対的ネットワーク (GAN) は高解像度画像の生成に大きな成功を収めており、その解釈可能性に関する研究も近年広く注目を集めています。 この分野では、GAN に分離した表現を学習させる方法が依然として大きな課題となっています。 GAN のいわゆる分離表現とは、表現の各部分が生成された画像の特定の側面にのみ影響を与えることを意味します。 GAN 分離表現に関するこれまでの研究では、さまざまな視点に焦点が当てられてきました。 たとえば、下の図 1 では、方法 1 によって画像の構造とスタイルが分離されています。方法 2 は、画像内のローカル オブジェクトの特徴を学習します。方法 3 は、顔画像の年齢属性や性別属性など、画像内の属性の分離された特徴を学習します。しかし、これらの研究では、GAN におけるさまざまな視覚概念 (顔の目、鼻、口などの部分) の明確で象徴的な表現を提供できませんでした。 図1: 他のGAN分離表現手法との視覚的な比較 この目的のために、研究者らは、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案しました。これにより、ジェネレーターの中間層の畳み込みカーネルが分離されたローカル視覚概念を学習できるようになります。具体的には、以下の図 2 に示すように、従来の GAN と比較して、説明可能な GAN の中間層の各畳み込みカーネルは、異なる画像を生成するときに常に特定の視覚概念を表し、異なる畳み込みカーネルは異なる視覚概念を表します。 図2: 解釈可能なGANと従来のGANエンコーディング表現の視覚的な比較 モデリングアプローチ説明可能な GAN の学習は、畳み込みカーネルの解釈可能性と生成された画像の信憑性という 2 つの目標を満たす必要があります。
ターゲット レイヤーの畳み込みカーネルの解釈可能性を確保するために、研究者は、複数の畳み込みカーネルが視覚概念に対応する類似の領域を生成する場合、通常、それらのカーネルは共同でこの視覚概念を表すことに気付きました。 したがって、特定の視覚概念を共同で表現するために畳み込みカーネルのセットを使用し、異なる視覚概念を個別に表現するために異なる畳み込みカーネルのセットを使用します。 同時に生成された画像の信憑性を保証するために、研究者らは以下の損失関数を設計し、従来の GAN を解釈可能な GAN に修正しました。
実験結果実験では、研究者らは解釈可能な GAN を定性的にも定量的にも評価しました。 定性分析では、各畳み込みカーネルの特徴マップを視覚化し、異なる画像間で畳み込みカーネルによって表される視覚概念の一貫性を評価しました。下の図 3 に示すように、説明可能な GAN では、各畳み込みカーネルは異なる画像を生成するときに常に同じ視覚概念に対応する画像領域を生成しますが、異なる畳み込みカーネルは異なる視覚概念に対応する画像領域を生成します。 図3: 解釈可能なGANにおける特徴マップの視覚化 実験では、図4(a)に示すように、各畳み込みカーネルのグループのグループ中心と畳み込みカーネル間の受容野の違いも比較しました。図4(b)は、説明可能なGANにおけるさまざまな視覚概念に対応する畳み込みカーネルの数の比率を示しています。図 4 (c) は、異なる数の畳み込みカーネル グループを選択した場合、解釈可能な GAN のグループ数が増えるほど、学習される視覚概念がより詳細になることを示しています。 図4: 説明可能なGANの定性評価 説明可能な GAN は、生成された画像上の特定の視覚概念の変更もサポートします。たとえば、解釈可能なレイヤー内の対応する特徴マップを交換することで、画像間の特定の視覚概念の相互作用を実現できます。つまり、ローカル/グローバルの顔の交換を完了できます。 下の図 5 は、画像のペア間で口、髪、鼻を入れ替えた結果を示しています。最後の列には、変更された画像と元の画像の違いが表示されます。この結果は、私たちの方法が他の無関係な領域を変更せずに、局所的な視覚概念のみを変更することを示しています。 図5: 生成された画像と特定の視覚概念の交換 さらに、下の図6は、顔全体を交換した場合の彼らの方法の効果も示しています。 図6: 生成された画像の面全体を交換 定量分析のために、研究者らは顔認証実験を用いて顔交換結果の精度を評価した。具体的には、顔画像のペアが与えられた場合、元の画像の顔がソース画像の顔に置き換えられ、変更された画像が生成されます。次に、変更された画像の顔がソース画像の顔と同じ ID を持つかどうかをテストします。 下の表 1 は、さまざまな方法による顔認証結果の精度を示しています。この方法は、アイデンティティ保存の点で他の顔スワッピング方法よりも優れています。 表1: 顔交換の精度評価 さらに、特定の視覚概念を変更する際の私たちの方法の局所性が実験で評価されます。具体的には、研究者らは、RGB空間における元の画像と修正された画像の間の平均二乗誤差(MSE)を計算し、特定の視覚概念について、領域外のMSEと領域内のMSEの比率を局所性評価の実験指標として使用しました。 結果は下の表2に示されています。研究者の修正方法は局所性が優れており、修正された視覚概念の外側の画像領域の変化が少なくなっています。 表2: 修正された視覚概念のローカル評価 さらなる実験結果については論文をご覧ください。 要約するこの研究では、視覚的な概念を手動で注釈付けする必要なく、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案します。説明可能な GAN では、ジェネレーターの中間層にある各畳み込みカーネルは、異なる画像を生成するときに同じ視覚概念を安定して生成できます。 実験では、説明可能な GAN によって、生成された画像上の特定の視覚概念を変更できるようになることが示されており、GAN で生成された画像の制御可能な編集方法に新たな視点がもたらされています。 |
<<: ヘルスケア AI が有用であることをどうやって保証するのでしょうか?
>>: 最大フロー問題の解決における画期的な進歩: 新しいアルゴリズムは「驚くほど高速」
多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規...
人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...
人工知能は商業ビルを変革し、エネルギー使用に関してよりスマートなものにしています。周囲に誰もいないと...
Facebook は最近、画像内のテキスト スタイルをコピーして再現できる新しい画像 AI「Text...
自動車の電動化や知能化が進む中、自動運転は人々の日常生活にますます近づきつつあります。現在、市場に出...
TensorFlow と PyTorch フレームワーク間の戦いは長い間続いています。最近のニュー...
自動機械学習 (AutoML と略されることが多い) は、機械学習モデルを構築してデータをモデリング...
[[431476]] 「ターミネーター」のように、観た後に私に大きな影響を与える映画はほとんどあり...
OpenAI は本日、大規模言語モデル API (GPT-4 および gpt-3.5-turbo を...
51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...
AI時代の到来非常にドラマチックなのは、Microsoft Build 開発者会議と Google...
最近、Vincent Diffusion アーティファクトをオープンソース化した Stability...
スマートグリッドは、供給者から消費者に電力を供給する相互接続されたコンポーネントの複雑なシステムです...