生成的敵対ネットワークがなぜ必要なのでしょうか?

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

ニューラルネットワークに多数の人物と車の画像を見せ、どれが車でどれが人物であるかを伝えます。最終的に、ニューラルネットワークは人物と車を区別することを学習します。車や人物の新しい写真が入力されると、それが人物か車かを知らせてくれます。

[[347866]]

図 1.1 に示すように、基本的にこのニューラルネットワークが行うことは、意味のある構造を構築することです。このニューラルネットワークに、これまでに見たことのない人物や車の新しい写真を生成するように要求した場合、図 1.2 に示すように、それを実行することができません。

図1: 畳み込みニューラルネットワーク

多くの場合、同じ入力分布から新しいサンプルを生成する必要があり、そのためには生成モデルが必要です。

生成ネットワーク

図2: 生成ネットワークの入力データ

これら 3 種類のデータ (図 2) を生成ネットワークに入力すると、ネットワークの学習モデルは図 3 のようになります。このトレーニング済みの生成ニューラルネットワークを通じてサンプルを生成しようとすると、図 4 が生成されます。これは、図 4 のモデルが上記の 3 つの入力分布モデルの平均に似ているためです。

しかし、観察すると、このサンプルはどの入力データ分布タイプにも属さないことが明確にわかります。この問題をどうやって解決するか? 答えはランダム性です。つまり、生成モデルはランダム性を追加することで非常に類似した結果を生成します。

図3: 学習モデル; 図4: 生成ネットワークの出力

敵対的ネットワーク

ニューラルネットワークをトレーニングして 0 から 9 までの数字を正しく認識できるようにしたい場合、まず大量の数字の画像を用意する必要があります。トレーニング中、ネットワークは正しく予測した場合に報酬を与えられ、誤って予測した場合にはフィードバックが与えられ、それに応じて重みを調整します。このプロセスは、すべての数字のすべての画像に対して繰り返されます。

しかし、私たち人間がこの過程を経る場合、実際にはそうではありません。あなたが教師で、子供に 0 から 9 までの数字の認識方法を教えているとします。 0、2、3、4、5、6、8、9 の数字については、彼は 70% の確率で正解を出します。しかし、1 と 7 の数字が出てくると、確信度は 50% しかありません (違いがわからない場合もあります)。なぜなら、彼にとって、数字の 1 と 7 は非常によく似ているからです。

あなたはこれに気づき、生徒が直面している主な問題である 1 と 7 に焦点を当て始めます。しかし、同じ質問をし続けると、最終的にはやる気を失って諦めてしまいます。このバランスは人間では一般的ですが、ニューラルネットワークではそうではありません。ニューラルネットワークには感情がないのです。エラー率が他の数字のエラー率と同じレベルに下がるまで、これらのエラーについてネットワークを何度もトレーニングすることができます。

現実には、先生が同じ質問をし続け、不合格になり続け、さらには先生が不合格を望んでいると感じるような状況に遭遇する人もいるかもしれません。これは実際には逆の動作です。

では、ニューラルネットワークで同様のシナリオを再現するにはどうすればよいでしょうか? 実際には、真の敵対的ネットワークを構築することができます。もし実際にニューラルネットワークにできるだけ多くの間違いを起こさせ、上記のような反応を起こさせ、何らかの弱点を発見するプログラムがあったとしたら、そのプログラムは学習者にその弱点をなくすように具体的に学習させるでしょう。

生成的敵対ネットワーク

生成的敵対ネットワークは、生成モデルと識別モデルの 2 つのモジュールで構成されます。生成的敵対ネットワークをトレーニングする場合、2 つのネットワークは実際には互いにゲームを行い、判別モデルのエラー率という唯一のパラメーターを競い合います。生成モデルは重みを調整してエラーを大きくし、識別モデルは学習を通じてエラーを減らそうとします。

生成的敵対ネットワークのトレーニングプロセス

例

贋作者は偽の絵画を作成し、それを高値で売ろうとした。同時に、絵画の真贋を検査し、判断する責任を負う検査官もいます。

最初、偽造者は紙の上にランダムに数本の線を引いただけで、検査官はこの時点では真贋を判断できませんでした。なぜなら、最初は識別モデルも生成モデルも学習を行っていないからです。

その後、贋作者は、本物そっくりの絵画を制作するために、より多くの異なる種類の絵画技法を学び、検査官は、偽物と本物を見分けるための細かい模様を学びました。贋作者が新たに作成した絵画を検査すると、検査官はその絵画が偽物であると認識し、それを拒否し、このプロセスが繰り返されます。

最終的には、偽造者がオリジナルに非常に近い画像を作成し、検査官がその真正性を判断できないという状況が発生します。これは、ニューラルネットワーク内で生成モデルが元の絵画とまったく同じ絵を生成する一方で、識別モデルの出力が 0.5 となり、絵が本物か偽物か区別できないことを示すものとして現れます。この時点で、識別モデルをニューラルネットワークから削除することができ、非常にリアルに見える絵画を生成できる完全にトレーニングされた生成モデルが得られます。

さらに、大量の車の画像を生成的敵対的ネットワークに入力して新しい車のサンプルを生成すると、1 つ確かなことがあります。それは、生成的敵対的ネットワークが車が何であるかを理解するということです。

[[347870]]

画像ソース: unsplash

ネットワークは潜在空間に構造を構築するため、これは特徴ベクトルとも呼ばれます。これらのベクトルを観察すると、その意味が完全であることがわかります。この潜在空間は入力データ分布のマッピングです。各寸法は車の特定の特性に対応します。潜在空間の 1 つの軸が車のサイズを表す場合、もう 1 つの軸は車の色を表します。

したがって、入力分布内でデータポイントを移動すると、潜在空間でも非常にスムーズな遷移が発生します。このようにして、入力データ分布に類似した新しいサンプルが生成されます。

<<: アントチェーン、AI + ブロックチェーン技術でオリジナル作品を共同保護するデジタル著作権サービスプラットフォームの開設を発表

>>: 自動運転のフードデリバリーが利用可能に、Meituanがすぐにあらゆるものを配達