敵対的サンプルとディープニューラルネットワークの学習

概要

過去 6 か月間で、人工知能の分野は科学技術分野で最も頻繁に言及される用語の 1 つになりました。以前 kdnuggets で公開された記事「ディープラーニングの深刻な欠陥」では、ディープラーニングの巨匠 Yoshua Bengio 氏と彼の博士課程の学生で Google の科学者 Ian Goodfellow 氏が、コメント欄でディープラーニングの敵対的サンプルについて著者と活発な議論を交わしました。kdnuggets の編集者は、この分野での彼の見解と研究について詳しく述べる記事を書くよう Ian Goodfellow 氏に依頼しました。では、敵対的サンプルとは何でしょうか。また、どのように生成されるのでしょうか。

敵対的例

敵対的サンプルの概念は、ICLR 2014 で発表された論文で Christian Szegedy らによって初めて提案されました。敵対的サンプルとは、データセットに微妙な干渉を意図的に追加することで形成される入力サンプルです。干渉された入力により、モデルは高い信頼性で誤った出力を生成します。

彼らの論文では、畳み込みニューラルネットワーク (CNN) を含むディープラーニングモデルは敵対的サンプルに対して非常に脆弱であることがわかりました。彼らの研究によると、多くの場合、トレーニングセットの異なるサブセットでトレーニングされた異なる構造のモデルは、同じ敵対的サンプルを誤分類し、敵対的サンプルがトレーニングアルゴリズムの盲点になっていることを意味しています。 2 つ目は、ディープラーニングを直接非難し、ディープラーニングの流行を鎮めようとするものであるように思われます。 CVPR 2015 で Anh Nguyen らが発表した論文によると、人間にはまったく認識できないサンプル (論文では「Fooling Examples」と呼ばれている) に直面した場合、ディープラーニングモデルは実際にノイズをライオンとして識別するなど、高い信頼度でサンプルを分類できるそうです。

上記の脆弱性について、この研究は、一方では、機械と人間の視覚の本当の違いについて、人々にもっと深く考えさせるものであると示唆しています。他方では、ディープラーニングモデル自体の説明のつかない欠陥から、ディープラーニングはディープラーニングではなく、ディープラーニングの欠陥であると考える人も出てきました。これはディープラーニングに対するやや不当な非難です。なぜなら、kdnuggets の記事 (ディープラーニングのディープラーニングの欠陥) では、ディープラーニングの敵対的サンプルに対する脆弱性はディープラーニングに特有のものではないと指摘しているからです。実際、これは多くの機械学習モデルに共通しており (Box 氏は、すべてのモデルは間違っているが、いくつかは有用であると言っていませんでしたか)、ディープラーニングは今のところ敵対的トレーニングに対して最も耐性のある技術かもしれません。下の図のように、元の画像は信頼度 60% で「パンダ」と判定されましたが、わずかな干渉を加えたところ、人間の目には全く違いが分からないにもかかわらず、信頼度 99% でテナガザルに分類されました。

敵対的例の根本的な問題

では、ディープモデルが敵対的サンプルに対処できない本当の理由は何でしょうか? 一般的に言えば、モデルの過剰適合が原因で一般化能力が不十分になる可能性があり、一般化能力が不十分な場合は、モデルの平均化が不十分であるか、正規化が不十分である可能性があります。ただし、モデルの平均化を増やしたり、ノイズトレーニングを追加したりして敵対的サンプルに対処しようとする試みはすべて失敗しています。もう 1 つの推測は、モデルの非線形性が高いことです。ディープモデルのパラメーターが何百万もあると、確かに少し不安になりますが、Ian Goodfellow は、敵対的サンプルの説明と活用に関する論文で、線形モデルに敵対的干渉を追加し、線形モデルの入力に十分な次元がある限り (実際、ほとんどの場合、モデル入力の次元は比較的大きいです。入力の次元が小さすぎると、モデルの精度が低くなりすぎる (つまり、アンダーフィッティング) ため)、線形モデルも敵対的サンプルに対して明らかに脆弱であることを発見しました。これは、敵対的サンプルはモデルの非線形性が高いためであるという説明を反証しています。

実際、記事では、高次元空間における線形性は敵対的サンプルを作成するのに十分であり、ディープモデルが敵対的サンプルに対して効果がない主な理由は線形部分の存在にあると指摘しています。

次の図は、線形設計によって引き起こされる敵対的撹乱に対するモデルの耐性の関係を示しています。

敵対的サンプルの活用

上記の問題に対して、敵対的サンプルがディープラーニングに疑問をもたらしたことは間違いありませんが、実際にはこれはディープラーニングモデルを修正する機会も提供します。なぜなら、敵対的サンプルを使用してモデルの耐干渉能力を向上させることができるためです。これが敵対的トレーニングの概念です。

敵対的サンプルに関する研究が深まるにつれ、敵対的サンプルを使用して敵対的ネットワーク (GAN) を生成できるようになりました。 GANには、生成モデルGと識別モデルDがあります。DはサンプルがGからのものか、実際のデータセットからのものかを識別する必要があり、Gの目標はDを騙すことができる敵対的なサンプルを生成することです。Gは偽造通貨の製造者、Dは警察と見なすことができます。GとDの継続的な対決を通じて、お互いのスキルは徐々に向上し、最終的にGが製造した偽造通貨は本物と区別がつかなくなります。

敵対的事例に対する防御

Papernot らは、蒸留技術 (確率分布をトレーニングターゲットとして使用) を使用して、ネットワークの敵対的摂動に対する脆弱性を大幅に低減できることを示しました。 MNIST データセットでトレーニングされた DNN の場合、防御蒸留により敵対的サンプルの成功率が 95.89% から 0.45% に低下します。CIFAR データセットの場合、成功率は 87.89% から 5.11% に低下します。実際、防御蒸留により、入力の変動に対する DNN の感度を低下させることができます。

以下は、MNIST と CIFAR からの正当な例と敵対的な例を示したものです。

防御蒸留の仕組みとそれが機能する理由について説明します。まず、与えられた入力サンプルの周りの作業の方向を把握し、次にこの情報を使用して入力次元間の摂動を選択する一般的な敵対的フレームワークを検討します。

勾配の方向が急な場合は、小さな変動にも大きな影響が及びます。このような摂動を防ぐには、トレーニング中に学習したモデルを、ネットワークがトレーニングデータセット外のサンプルに対してより適切に一般化されるようにすることで平滑化する必要があります。敵対的サンプルに対する DNN の「堅牢性」は、サンプルの近傍を与えられた場合に入力を一貫して分類する能力に関連しています。

この平滑化を実現するために、蒸留防御はまず通常どおり分類ネットワークをトレーニングし、次に最初のモデルから学習した確率ベクトルを使用してまったく同じアーキテクチャを持つ新しいモデルをトレーニングします。

下の図は、蒸留温度が敵対的サンプルに対するモデルの防御能力にどのように影響するかを示しています。直感的に、温度が高ければ高いほど、防御力は高くなります。

防御蒸留は、エネルギー確率分布に基づく DNN モデルにのみ適用できるため、一般的な敵対的サンプルに対して堅牢な機械学習モデルを構築するための重要なステップとなります。

<<: 機械知能のための TensorFlow 実践: 製品環境へのモデルの導入

>>: 「より深く」「より鮮明に」見る - 超高精細画像におけるディープラーニングの応用