テクスチャコントラスト検出を使用してAI生成画像を検出する

テクスチャコントラスト検出を使用してAI生成画像を検出する

この記事では、AI によって生成された画像を検出するためのディープラーニング モデルを開発する方法について説明します。

AI 生成画像を検出するためのディープラーニング手法のほとんどは、画像が生成された方法、または画像の性質/意味に依存しており、モデルは人、顔、車などの特定の AI 生成オブジェクトのみを検出できます。

しかし、この論文「リッチおよびプアテクスチャコントラスト: AI 生成画像検出のためのシンプルかつ効果的なアプローチ」で提案されている方法は、上記の問題を克服し、より幅広い用途に使用できます。この論文について説明し、AI 生成画像を検出する他の多くのアプローチが直面している問題をこの論文がどのように解決するかについて説明します。

一般化の問題

AI によって生成された画像を検出するためにモデル (ResNet-50 など) をトレーニングすると、モデルは画像のセマンティクスから学習します。実際の画像とさまざまな AI 生成の車の画像を使用して、AI 生成の車の画像を検出するようにモデルをトレーニングする場合、現在のモデルはこのデータから車に関する情報しか取得できず、他のオブジェクトの情報は取得できません。

さまざまなオブジェクトのデータでトレーニングすることは可能ですが、実際に実行してみると、このアプローチははるかに遅く、目に見えないデータに対して約 72% の精度しか得られませんでした。より多くのトレーニングとデータを通じて精度を向上させることはできますが、トレーニングのための無限のデータを見つけることは不可能です。

つまり、電流検出モデルの一般化には大きな問題がある。この問題を解決するために、本論文では以下の方法を提案している。

スマッシュ&再構築

この論文では、モデルが(トレーニング中に)画像の形状から AI 生成の特徴を学習するのを防ぐための独自のアプローチを提案しています。これは、Smash & Reconstruction と呼ばれる方法を通じて行われます。

この方法では、画像を所定のサイズの小さなブロックに分割し、シャッフルして新しい画像を生成します。これは、生成モデルへの最終的な入力画像の前に追加の手順があるため、単純化された説明です。

画像をパッチに分割した後、パッチを 2 つのグループに分けます。1 つのグループはテクスチャが豊富なパッチで、もう 1 つのグループはテクスチャが貧弱なパッチです。

オブジェクトや対照的な色の 2 つの領域の境界など、詳細が豊富な画像の領域は、テクスチャが豊富なパッチになります。テクスチャが豊富な領域は、主に背景 (空や静止した水など) のテクスチャ領域と比較して、ピクセルの変動が大きくなります。

テクスチャーに富んだメトリクスの計算

まず、上の図に示すように、画像は所定のサイズの小さなブロックに分割されます。次に、これらの画像ブロックのピクセル勾配が検出され(つまり、水平、対角、反対角方向のピクセル値の差が検出され、合計されます)、テクスチャが豊富なブロックとテクスチャが貧弱なブロックに分けられます。

テクスチャの乏しいブロックと比較すると、テクスチャの豊かなブロックはピクセルの勾配値が高くなります。画像の勾配値を計算する式は次のとおりです。

画像はピクセルのコントラストに基づいて分離され、2 つの合成画像が得られます。このプロセスは、この記事で「スマッシュ & 再構築」と呼ばれている完全なプロセスです。

これにより、モデルはオブジェクト コンテンツの表現ではなくテクスチャの詳細を学習できるようになります。

指紋

ほとんどの指紋ベースの方法は画像生成技術によって制限されており、これらのモデル/アルゴリズムは、拡散、GAN、またはその他の CNN ベースの画像生成方法などの特定の方法/類似の方法によって生成された画像のみを検出できます。

この問題に正確に対処するために、この論文では、これらの画像パッチをテクスチャが豊富なものと乏しいものに分割しました。次に著者らは、AI によって生成された画像指紋を識別するための新しい方法を提案しました。これが論文のタイトルです。彼らは、30 個のハイパス フィルターを適用した後、画像内のテクスチャが豊富なパッチと少ないパッチの間のコントラストを見つけることを提案しました。

テクスチャの豊富なパッチと乏しいパッチ間のコントラストはどのように役立ちますか?

理解を深めるために、実際の画像と AI が生成した画像を並べて比較しました。

これら 2 つの画像を肉眼で見るのは困難です。

この論文ではまず、Smash&Reconstruction プロセスを使用します。

各画像に 30 個のハイパス フィルターを適用した後、それらのコントラストは次のようになります。

これらの結果から、AI 生成画像では、実際の画像と比較して、テクスチャが豊富なパッチとテクスチャが乏しいパッチ間のコントラストがはるかに高いことがわかります。

この方法では、肉眼で違いを確認できるので、コントラストの結果をトレーニング可能なモデルに組み込み、結果のデータを分類器に入力することができます。これが私たちの論文のモデル アーキテクチャです。

分類器の構造は次のとおりです。

この論文では、もともとステガナリシスのために導入された 30 個のハイパス フィルターについて言及されています。

注: 画像をステガノグラフィで書き込む方法は多数あります。広義では、画像に通常の手段では発見しにくい何らかの方法で情報が隠されている限り、それは画像ステガノグラフィーと呼ぶことができます。ステガノグラフィーに関する関連研究は数多くあります。ご興味のある方は関連資料を参照してください。

ここでのフィルターは、畳み込み法を使用して画像に適用される行列値です。使用されるフィルターは、画像の高周波特性のみを通過させるハイパス フィルターです。高周波の特徴には通常、エッジ、細かいディテール、強度や色の急激な変化が含まれます。

(f) と (g) を除くすべてのフィルターは、画像に再適用される前に一定の角度だけ回転され、合計 30 個のフィルターが作成されます。これらの行列の回転は、SciPy で実行されるアフィン変換を使用して行われます。

要約する

論文の結果では検証精度は92%に達しており、さらにトレーニングを行えばさらに良い結果が得られると言われています。非常に興味深い研究です。トレーニングコードも見つけました。興味のある方は詳しく調べてみてください。

論文: https://arxiv.org/abs/2311.12397

コード: https://github.com/hridayK/Detection-of-AI-generated-images

<<:  Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

>>: 

ブログ    

推薦する

この本は人気があり、この本を学んだ男性は給料が30万以上上がった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「順序付きファネル」アルゴリズム問題は、iResearch A10サミットで新たなブレークスルーを達成すると期待されています。

新小売、新金融、新エンターテインメントなどの新しい業態の台頭により、ビッグデータの驚異的な力がインタ...

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニ...

...

クラウド AI とエッジ AI: 2022 年にはどちらがより良い選択でしょうか?

エッジ AI とクラウド AI は、現在企業が使用している最も重要なテクノロジーの一部であることがわ...

APP はユーザーのプライバシーと顔認識生体認証情報を深く掘り下げ、「データ疫病」の到来に注意

315 Gala で摘発された企業は、業界内ではほんの少数派です。ユーザーのプライバシーを侵害するア...

効果よりも研究が重要です。バイオニックロボットはどうすれば実用化できるのでしょうか?

[[235506]]映画『ウォーリー』では、愛らしいウォーリー(WALL-E、廃棄物処理ロボット地...

初心者が機械学習をすぐに始められるように、Colabリソースの完全なリストはこちらです。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

グラフニューラルネットワークが深くなるほど、パフォーマンスは向上しますか?

数十または数百の層を持つニューラル ネットワークの応用は、ディープラーニングの重要な機能の 1 つで...

iCubヒューマノイドロボットは目を動かしたり、話したり、人を抱きしめたりすることができ、今回は遠隔操作も可能だ

2011 年には、子供のような iCub ヒューマノイド ロボットについて耳にしていました。これは次...

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...

Musk xAI初の研究成果公開!創立メンバーのヤン・ゲとヤオクラスの卒業生が共同で創設した

マスク氏のxAI、初の公開研究成果がここに!共著者の一人は、xAI の創設メンバーであり Shing...

サーマルイメージングによって施設と従業員の安全性がどのように向上するのでしょうか?

監視範囲の死角、互換性のないビデオおよびアクセス制御システム、適切な境界保護の欠如...これらは、施...

重複ページの検索エンジンアルゴリズム分析

検索エンジンは一般的に、各 Web ページに対して一連の情報フィンガープリントが計算されるという考え...

機械学習チートシートを使用して難しい問題を解決します。できますか?

機械学習の初心者であっても、中級プログラマーであっても、この質問に戸惑うかもしれません。チートシート...