信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワーク (CNN) のパフォーマンスは、SIFT や SURF などの従来のデジタル画像処理手法を超えています。コンピュータービジョンの分野では、学者たちは研究の焦点を CNN に移し始め、CNN がこの分野の将来のトレンドであると信じていました。しかし、CNN の驚異的な成功の背後にあるメカニズムについては、あまり理解されていません。 CNN の動作メカニズムの研究は、現在注目されている話題です。基本的に、1>最適化、2>近似、3>信号という3つの主流のビューがあります。最初の 2 つの観点は主に、ニューラル ネットワークの統計特性と収束を分析しようとする純粋な数学的分析に焦点を当てていますが、3 番目の観点は、次の質問に対処しようとする試みを示しています。1) 非線形活性化関数がすべての中間層のフィルター出力に不可欠なのはなぜですか? 2) 単層システムに対する 2 層カスケード システムの利点は何ですか?

球面上の補正相関 (RECOS)

周知のとおり、フィードフォワード ニューラル ネットワーク (FNN) は、有限数のニューロンを含む単一の隠し層を与えられた任意の連続関数を近似できる汎用近似器として考えることができます。 FNN の特別な点は、ニューロンの非線形活性化関数です。一部のニューラル ネットワークは大規模で深いですが、非線形活性化関数がなければ、その複雑なアーキテクチャの効果は、入力を別の出力空間にマッピングする単純な単層線形モデルと変わりません。具体的には、非線形活性化関数によって学習された入力表現のセットは、実用的な問題を解決するのにより適しています。

CNN は、FNN または MLP (多層パーセプトロン) の別のタイプです。 CNN の非線形性を分析するために、著者らは CNN の動作を理解するための数学モデルを提案しました。このモデルでは、CNN は「球面の補正相関 (RECOS)」を計算する基本的なオペレーティング ユニットで構成されたネットワークとして見られます。そのため、RECOS モデルと呼ばれます。 CNN のトレーニング中、カーネルの重みは最初に初期化され、次に勾配降下法とバックプロパゲーション アルゴリズムによって調整されます。 RECOS モデルでは、重みは入力データのクラスタリングにおける役割を示すためにアンカー ベクトルと呼ばれます。つまり、入力ベクトルとアンカーベクトル間の相関を計算し、それらの類似性を測定しようとします。

非線形活性化関数を使用する理由は何ですか?

すべてのピクセルの相互作用を 1 つのステップでのみ考慮する MLP とは異なり、CNN は入力画像を特定のレイヤーのノードの受容野と呼ばれる小さなパッチに分解します。アルゴリズムは、より大きな画像をカバーできるように受容野のサイズを徐々に拡大します。ニューロンは入力ベクトルとそのア​​ンカー ベクトル間の相関を計算し、それらの類似性を測定します。各 RECOS ユニットには K 個のニューロンがあります。モデルは Y = AX として表されます。ここで、X は入力ベクトル、Y は出力ベクトル、A はアンカー ベクトル (カーネル フィルターの重み行列) です。この式は、CNN が入力を別の空間にマッピングする方法を表します。 RECOS モデルを研究することで、学習されたカーネルの重みは類似のオブジェクトを同じ領域にマッピングする傾向があることがすぐにわかります。たとえば、x_i と x_j のユークリッド距離が近い場合、対応する出力 y_i と y_j も新しい空間内で近い必要があります。猫の特徴を捉えるために使用されるフィルターの場合、学習されたアンカー ベクトル A は、猫の特徴を表すすべてのベクトル X_cat を Y_cat にマッピングしますが、犬の特徴を表すその他のベクトル X_dog や車の特徴を表す X_car はこの領域には決して表示されません。これが、CNN がさまざまなオブジェクトの識別に効果的である理由です。

しかし、なぜ非線形活性化関数を使用する必要があるのでしょうか? 上の 2 つの画像 (左) は元の猫の画像、(右) は左の画像のネガです。人間の視点から判断すると、2 つの画像は同一である場合もありますが、異なる場合もあります。両方の写真の猫は同じ猫であり、負の相関関係にあると結論付けることができます。黒猫は単純に白猫の画像のピクセル値から255を引いたものだからです。それで、CNN はこの 2 匹の猫をどうやって理解したのでしょうか?

上の図から、非線形活性化関数を使用する必要性がわかります。 X は入力ベクトル、a_1、a_2、a_3 はそれぞれ異なる学習されたアンカー ベクトルです。 RECOS モデルでは、線形演算 Y = AX を使用して、入力ベクトルとアンカー ベクトル間の類似性を測定します。したがって、アンカー ベクトル a_1 と a_3 の場合、x と 2 つのアンカー ベクトルの類似性は大きさは同じですが、符号が反対であることがわかります。この時点で、猫は CNN とは異なります。しかし、たとえば 2 つの畳み込み層を持つ LeNet5 では、元の入力 x が 2 つの層を通過した後、最終的な出力結果が混乱します。非線形活性化関数のないシステムでは、次の 2 つのケースを正しく区別できません。1) 最初の層の正の応答が 2 番目の層の負のフィルター重みに遭遇する。2) 最初の層の負の応答が 2 番目の層の正のフィルター重みに遭遇する。ただし、非線形活性化関数を使用することで、CNN は負の値の影響を簡単に排除できるため、堅牢なシステムを実現できます。

さらに、著者は興味深い実験を行い、その結果は以下のとおりです。

MNIST トレーニング セットを使用して LeNet-5 ネットワークをトレーニングし、MNIST テスト セットで 98.94% の正しい認識率を達成しました。次に、図 5 に示すように、この LeNet-5 ネットワークをグレースケール反転テスト画像に適用します。正解率は37.36%に低下しました。次に、ネットワークの残りの部分は変更せずに、conv1 内のすべてのフィルターの重みを負の値に変更します。わずかに修正された LeNet-5 ネットワークは、グレースケール反転テスト セットで 98.94% の正しい認識率を達成しましたが、元のテスト セットの精度は 37.36% に低下しました。

ご覧のとおり、最初の畳み込み層のすべてのフィルター重みを変更すると、対称的な結果が得られます。この結果は、活性化関数の導入により負の相関が排除されることを示しています。グレースケール反転画像の特徴を学習する際に、元の画像のアンカーベクトルを保持するだけでなく、グレースケール反転画像のアンカーベクトルも追加すると、両方のテストセットで高い認識結果を達成できます。

カスケードレイヤーの利点は何ですか?

一般的に言えば、CNN レイヤーの数が深くなるにつれて、カーネル関数は以前のすべてのカーネル関数の出力に基づいて独自の抽象的な特徴を構築しようとします。したがって、浅いレイヤーと比較して、深いレイヤーはグローバルなセマンティクスと高レベルの機能をキャプチャできます。 RECOS モデルでは、CNN は類似性の測定に類似した一連の非線形変換を使用して、類似の入力データをレイヤーごとにクラスタ化します。出力層は、すべての可能な決定の可能性(オブジェクトのクラスなど)を予測します。トレーニング サンプルには、画像とその決定ラベルの関係が含まれており、CNN がより適切なアンカー ベクトルを生成し (より優れたクラスタリングを形成)、最終的にクラスタリング データを決定ラベルにリンクするのに役立ちます。

上の図はディープネットワークの有効性を示しています。実験の詳細は次のとおりです。

これを例で説明してみましょう。まず、MNIST データセット内の元の手書き数字に 10 種類の異なる背景をランダムに追加して、MNIST のトレーニング セットとテスト セットを変更します。上記の 3 行の画像では、各行の左端の列には 3 つのデジタル画像入力が示され、中央の列にはそれぞれ畳み込み層と ReLU 層からの 6 つのスペクトル画像出力が示され、右端の 2 列にはそれぞれ畳み込み層と ReLU 層からの 16 のスペクトル画像出力が示されます。背景の多様性のため、最初のレイヤーに適したアンカー ベクトル マトリックスを見つけるのは困難です。ただし、これらの画像の背景は空間領域では一貫していませんが、前景の数は一貫しています。

さまざまな変形された背景に対して、CNN は代表的なパターンをうまくキャプチャします。最初のレイヤーには冗長で無関係な情報が多数含まれていることに注目してください。カスケード レイヤーで特徴抽出を適用することで、CNN はローカルの詳細ではなくグローバルなスタイルを学習します。つまり、入力ベクトル x に対して、RECOS 変換は K 次元の出力ベクトルとして、K 個の非負相関値のセットを生成します。このアプローチでは、レイヤーごとに繰り返しクラスタリングを実現します。最後に、トレーニング画像のラベルは、CNN が異なる背景の画像内で同じパターンを見つけるのに役立ちます。

上記の分析から、畳み込み層モデルは特徴を自動的に選択するのに非常に有用であることがわかります。人間の介入なしに、入力データの類似性を測定し、異なる領域にクラスタリングできます。

では、完全に接続された層の役割は何でしょうか?

通常、CNN は、特徴抽出 (FE) サブネットワークと意思決定 (DM) サブネットワークの 2 つのサブネットワークに分解されます。 FE サブネットワークは複数の畳み込み層で構成され、DM サブネットワークは複数の完全接続層で構成されます。つまり、FE サブネットワークは一連の RECOS 変換を経て、クラスタリングのための新しい表現を形成します。 DM サブネットワークはデータ表現と決定ラベルをリンクし、その役割は分類における MLP の役割に似ています。

この時点で、CNN はコンピューター ビジョンにおける従来の機械学習アルゴリズムよりもはるかに優れていると結論付けることができます。 CNN は自動的に特徴を抽出し、その特徴に基づいて入力データを分類することを学習できますが、ランダム フォレスト (RF) とサポート ベクター マシン (SVM) は操作が難しいことが多い特徴エンジニアリングに大きく依存しているためです。

結論は

要約すると、RECOS モデルは、信号解析の観点から畳み込みニューラル ネットワークを分析します。この観点から、活性化関数とディープアーキテクチャの有効性がわかります。ただし、ネットワーク アーキテクチャの設計、弱教師あり学習、誤ったラベルに対する堅牢性、データ セットのバイアスと過剰適合の問題など、次の側面については、まだ詳細に研究する必要があります。

<<:  ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

>>:  触覚を感知し、自己治癒するロボットが現実になりつつある

推薦する

AI を人間の価値観に合わせるのはなぜ難しいのでしょうか?

何十年もの間、私たちは自分たちのイメージに合った人工知能を開発しようと努めてきました。一方で、私たち...

GPT-3を超えて、DeepMindは新しいお気に入りのGatoをリリースしましたが、「スープは変えても薬は変えない」と疑問視されています

大規模な言語モデリングにヒントを得て、Deepmind は同様のアプローチを適用し、マルチモーダル、...

ディープフェイク動画が急速に広まっている。ブロックチェーンがこの「疫病」を阻止できるかもしれない

「フェイクニュース」という言葉が今話題になっているが、ディープフェイク(本物に見えるが実は偽の動画を...

教育における人工知能の活用方法8つ

AI は教育テクノロジーの分野では以前から使われてきましたが、その導入は遅れています。しかし、COV...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

中国の科学者によるこの命を救うAIは海外のホットリストに載った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

エッジ AI は興味深い未来を提供し​​ます!

人工知能(AI)は、私たちの生活のほぼすべての側面において一般的な要素になりつつあります。これまで、...

2018年のAIトレンドはこちら

ビッグデータの計算分析は決して時代遅れではありません。それどころか、データ量が増え続けるにつれて、デ...

未来 | 人工知能が人間社会を変える24の方法

今こそ、AI の将来を本当に理解するときです。 AI を取り巻く不安は雇用の減少など多岐にわたります...

詩人のような機械学習: ML の仕組みについての素晴らしい啓示

機械学習はデータ内のパターンを使用して物事にラベルを付けます。魔法のように聞こえますが、核となる概念...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

AI で非構造化データの力を引き出す方法

ほぼすべての業界がデジタル化しており、「データは新たな石油である」とよく言われます。しかし、十分に認...

李開復:人工知能の「7つのブラックホール」は、最終的にはオープンエコシステムに置き換えられるだろう

最近、李開復氏は記者との独占インタビューで人工知能に関する自身の観察と洞察について語った。シリコンバ...

顔認識:最高裁は規則に従うよう求めている

近年、顔認識技術は急速に発展し、入場時の顔スキャンや支払い時の顔スキャンに広く使用され、私たちの日常...

...