CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

[[191828]]

CNN は現在非常に人気のあるモデルです。多くの画像検索問題において、CNN モデルの効果が以前より大幅に向上しました。しかし、CNN は結局これらの問題を完全に解決したわけではなく、CNN にはまだ独自の弱点があります。この弱点は、この病気特有の問題とは言えませんが、その効能があまりにも優れているため、迷信的に信じる人も多く、この洗面器に冷水をかけているのです。

専門家たちは CNN モデルの威力を目の当たりにしましたが、次のような疑問を抱かずにはいられませんでした。CNN で処理できないものがあるのでしょうか? たとえば、CNN を使用して顔認識モデルを構築します。このモデルはトレーニングデータセットとテストデータセットで優れたパフォーマンスを発揮しますが、誤判断するユースケースはあるのでしょうか? また、こうしたユースケースを生成するパターンを見つけることはできるのでしょうか?

以前正しく識別されたデータにわずかな変更を加えると、依然として正しく識別できる可能性があることが想像できます。そこで私たちは、ある計画を思いつきました。画像に少し変更を加えるたびに、その画像を CNN に渡してテストし、CNN の予測結果が変わったかどうかを確認します。変わっていない場合は、画像を保存して次の変更を行います。数回の変更が終わったら、生成された画像を出力して、画像がどのように見えるかを確認します。

ここでは MNIST を例にとり、次の変更計画を示します。

MNIST トレーニングセットを使用して CNN モデルをトレーニングします。CNN モデルの構造は次のとおりです: conv32*3*3->relu->maxpool2*2->conv64*3*6->relu->maxpool2*2->fc256->dropout0.5->fc10。
トレーニングデータセットを見つけ、そのデータ範囲を 0 から 1 に制限します。各ピクセルに対して -0.1 から 0.1 の間の数値をランダムに増減して、64 枚のランダム画像を取得します。次に、CNN モデルを使用して、これらの 64 枚の画像の予測ラベルを予測し、元のラベルと同じラベルを持つ画像を選択します。数回の反復処理を繰り返すと、ランダムに変更された数値がどのようになるかがわかります。

私たちは0番を選択しました:

50 回の反復後、次の画像が得られます。

100 回の反復後、次の画像が得られます。

150 回の反復後、次の画像が得られます。

200 回の反復処理の後、次の画像が得られます。

ここまでは、まだ数字がぼんやり見えていることがわかりますが、実際には画像がぼやけ、雑然とした情報が混ざり合って、元の数字とはまったく異なっています。

このルーチンは「CNNをだます」と呼ばれ、中国北東部の人々をだますことを意味します。繰り返し作業を続けることで、さらに魅力的な画像を生成できます。もちろん、これは CNN モデルを騙す 1 つの方法にすぎません。画像を生成する方法は他にもあります。他の方法についてはここでは紹介しません。こうした詐欺行為に関して、専門家は機械学習に関連した説明も行いました。

CNN モデルは究極的には識別モデルです。画像を X、ラベルを y に設定すると、CNN モデルは p(y|X) の値を見つけることと同等になります。判別モデルは「このラベルの画像はどのような画像であるか」を記述することと同等であり、これらの条件を満たす画像が必ずしも実際のラベルが付いた画像ではない場合があります。上記の詐欺はこの抜け穴を利用しています。

上記の例では、この fool メソッドを使用して、ぼやけた画像の元のラベルを保持し、それほどぼやけていない画像を CNN によって誤って別のラベルとして認識させることもできます。

たとえば、次の画像は 40 回の反復処理の後に 6 として認識されました。

こうしたルーチンの出現により、私たちは CNN を警戒するようになりました。CNN に手書きの数字を完全に保持させたいのであれば、他の補助手段が必要です。そうしないと、このような事故が常に発生します。

それで、この問題を解決する方法はあるのでしょうか?

<<: AWS 上でディープラーニングホストを構築する (Windows 版)

>>: ディープラーニングにおけるバッチ正規化の落とし穴