信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワーク (CNN) のパフォーマンスは、SIFT や SURF などの従来のデジタル画像処理手法を超えています。コンピュータービジョンの分野では、学者たちは研究の焦点を CNN に移し始め、CNN がこの分野の将来のトレンドであると信じていました。しかし、CNN の驚異的な成功の背後にあるメカニズムについては、あまり理解されていません。 CNN の動作メカニズムの研究は、現在注目されている話題です。基本的に、1>最適化、2>近似、3>信号という3つの主流のビューがあります。最初の 2 つの観点は主に、ニューラル ネットワークの統計特性と収束を分析しようとする純粋な数学的分析に焦点を当てていますが、3 番目の観点は、次の質問に対処しようとする試みを示しています。1) 非線形活性化関数がすべての中間層のフィルター出力に不可欠なのはなぜですか? 2) 単層システムに対する 2 層カスケード システムの利点は何ですか?

球面上の補正相関 (RECOS)

周知のとおり、フィードフォワード ニューラル ネットワーク (FNN) は、有限数のニューロンを含む単一の隠し層を与えられた任意の連続関数を近似できる汎用近似器として考えることができます。 FNN の特別な点は、ニューロンの非線形活性化関数です。一部のニューラル ネットワークは大規模で深いですが、非線形活性化関数がなければ、その複雑なアーキテクチャの効果は、入力を別の出力空間にマッピングする単純な単層線形モデルと変わりません。具体的には、非線形活性化関数によって学習された入力表現のセットは、実用的な問題を解決するのにより適しています。

CNN は、FNN または MLP (多層パーセプトロン) の別のタイプです。 CNN の非線形性を分析するために、著者らは CNN の動作を理解するための数学モデルを提案しました。このモデルでは、CNN は「球面の補正相関 (RECOS)」を計算する基本的なオペレーティング ユニットで構成されたネットワークとして見られます。そのため、RECOS モデルと呼ばれます。 CNN のトレーニング中、カーネルの重みは最初に初期化され、次に勾配降下法とバックプロパゲーション アルゴリズムによって調整されます。 RECOS モデルでは、重みは入力データのクラスタリングにおける役割を示すためにアンカー ベクトルと呼ばれます。つまり、入力ベクトルとアンカーベクトル間の相関を計算し、それらの類似性を測定しようとします。

非線形活性化関数を使用する理由は何ですか?

すべてのピクセルの相互作用を 1 つのステップでのみ考慮する MLP とは異なり、CNN は入力画像を特定のレイヤーのノードの受容野と呼ばれる小さなパッチに分解します。アルゴリズムは、より大きな画像をカバーできるように受容野のサイズを徐々に拡大します。ニューロンは入力ベクトルとそのア​​ンカー ベクトル間の相関を計算し、それらの類似性を測定します。各 RECOS ユニットには K 個のニューロンがあります。モデルは Y = AX として表されます。ここで、X は入力ベクトル、Y は出力ベクトル、A はアンカー ベクトル (カーネル フィルターの重み行列) です。この式は、CNN が入力を別の空間にマッピングする方法を表します。 RECOS モデルを研究することで、学習されたカーネルの重みは類似のオブジェクトを同じ領域にマッピングする傾向があることがすぐにわかります。たとえば、x_i と x_j のユークリッド距離が近い場合、対応する出力 y_i と y_j も新しい空間内で近い必要があります。猫の特徴を捉えるために使用されるフィルターの場合、学習されたアンカー ベクトル A は、猫の特徴を表すすべてのベクトル X_cat を Y_cat にマッピングしますが、犬の特徴を表すその他のベクトル X_dog や車の特徴を表す X_car はこの領域には決して表示されません。これが、CNN がさまざまなオブジェクトの識別に効果的である理由です。

しかし、なぜ非線形活性化関数を使用する必要があるのでしょうか? 上の 2 つの画像 (左) は元の猫の画像、(右) は左の画像のネガです。人間の視点から判断すると、2 つの画像は同一である場合もありますが、異なる場合もあります。両方の写真の猫は同じ猫であり、負の相関関係にあると結論付けることができます。黒猫は単純に白猫の画像のピクセル値から255を引いたものだからです。それで、CNN はこの 2 匹の猫をどうやって理解したのでしょうか?

上の図から、非線形活性化関数を使用する必要性がわかります。 X は入力ベクトル、a_1、a_2、a_3 はそれぞれ異なる学習されたアンカー ベクトルです。 RECOS モデルでは、線形演算 Y = AX を使用して、入力ベクトルとアンカー ベクトル間の類似性を測定します。したがって、アンカー ベクトル a_1 と a_3 の場合、x と 2 つのアンカー ベクトルの類似性は大きさは同じですが、符号が反対であることがわかります。この時点で、猫は CNN とは異なります。しかし、たとえば 2 つの畳み込み層を持つ LeNet5 では、元の入力 x が 2 つの層を通過した後、最終的な出力結果が混乱します。非線形活性化関数のないシステムでは、次の 2 つのケースを正しく区別できません。1) 最初の層の正の応答が 2 番目の層の負のフィルター重みに遭遇する。2) 最初の層の負の応答が 2 番目の層の正のフィルター重みに遭遇する。ただし、非線形活性化関数を使用することで、CNN は負の値の影響を簡単に排除できるため、堅牢なシステムを実現できます。

さらに、著者は興味深い実験を行い、その結果は以下のとおりです。

MNIST トレーニング セットを使用して LeNet-5 ネットワークをトレーニングし、MNIST テスト セットで 98.94% の正しい認識率を達成しました。次に、図 5 に示すように、この LeNet-5 ネットワークをグレースケール反転テスト画像に適用します。正解率は37.36%に低下しました。次に、ネットワークの残りの部分は変更せずに、conv1 内のすべてのフィルターの重みを負の値に変更します。わずかに修正された LeNet-5 ネットワークは、グレースケール反転テスト セットで 98.94% の正しい認識率を達成しましたが、元のテスト セットの精度は 37.36% に低下しました。

ご覧のとおり、最初の畳み込み層のすべてのフィルター重みを変更すると、対称的な結果が得られます。この結果は、活性化関数の導入により負の相関が排除されることを示しています。グレースケール反転画像の特徴を学習する際に、元の画像のアンカーベクトルを保持するだけでなく、グレースケール反転画像のアンカーベクトルも追加すると、両方のテストセットで高い認識結果を達成できます。

カスケードレイヤーの利点は何ですか?

一般的に言えば、CNN レイヤーの数が深くなるにつれて、カーネル関数は以前のすべてのカーネル関数の出力に基づいて独自の抽象的な特徴を構築しようとします。したがって、浅いレイヤーと比較して、深いレイヤーはグローバルなセマンティクスと高レベルの機能をキャプチャできます。 RECOS モデルでは、CNN は類似性の測定に類似した一連の非線形変換を使用して、類似の入力データをレイヤーごとにクラスタ化します。出力層は、すべての可能な決定の可能性(オブジェクトのクラスなど)を予測します。トレーニング サンプルには、画像とその決定ラベルの関係が含まれており、CNN がより適切なアンカー ベクトルを生成し (より優れたクラスタリングを形成)、最終的にクラスタリング データを決定ラベルにリンクするのに役立ちます。

上の図はディープネットワークの有効性を示しています。実験の詳細は次のとおりです。

これを例で説明してみましょう。まず、MNIST データセット内の元の手書き数字に 10 種類の異なる背景をランダムに追加して、MNIST のトレーニング セットとテスト セットを変更します。上記の 3 行の画像では、各行の左端の列には 3 つのデジタル画像入力が示され、中央の列にはそれぞれ畳み込み層と ReLU 層からの 6 つのスペクトル画像出力が示され、右端の 2 列にはそれぞれ畳み込み層と ReLU 層からの 16 のスペクトル画像出力が示されます。背景の多様性のため、最初のレイヤーに適したアンカー ベクトル マトリックスを見つけるのは困難です。ただし、これらの画像の背景は空間領域では一貫していませんが、前景の数は一貫しています。

さまざまな変形された背景に対して、CNN は代表的なパターンをうまくキャプチャします。最初のレイヤーには冗長で無関係な情報が多数含まれていることに注目してください。カスケード レイヤーで特徴抽出を適用することで、CNN はローカルの詳細ではなくグローバルなスタイルを学習します。つまり、入力ベクトル x に対して、RECOS 変換は K 次元の出力ベクトルとして、K 個の非負相関値のセットを生成します。このアプローチでは、レイヤーごとに繰り返しクラスタリングを実現します。最後に、トレーニング画像のラベルは、CNN が異なる背景の画像内で同じパターンを見つけるのに役立ちます。

上記の分析から、畳み込み層モデルは特徴を自動的に選択するのに非常に有用であることがわかります。人間の介入なしに、入力データの類似性を測定し、異なる領域にクラスタリングできます。

では、完全に接続された層の役割は何でしょうか?

通常、CNN は、特徴抽出 (FE) サブネットワークと意思決定 (DM) サブネットワークの 2 つのサブネットワークに分解されます。 FE サブネットワークは複数の畳み込み層で構成され、DM サブネットワークは複数の完全接続層で構成されます。つまり、FE サブネットワークは一連の RECOS 変換を経て、クラスタリングのための新しい表現を形成します。 DM サブネットワークはデータ表現と決定ラベルをリンクし、その役割は分類における MLP の役割に似ています。

この時点で、CNN はコンピューター ビジョンにおける従来の機械学習アルゴリズムよりもはるかに優れていると結論付けることができます。 CNN は自動的に特徴を抽出し、その特徴に基づいて入力データを分類することを学習できますが、ランダム フォレスト (RF) とサポート ベクター マシン (SVM) は操作が難しいことが多い特徴エンジニアリングに大きく依存しているためです。

結論は

要約すると、RECOS モデルは、信号解析の観点から畳み込みニューラル ネットワークを分析します。この観点から、活性化関数とディープアーキテクチャの有効性がわかります。ただし、ネットワーク アーキテクチャの設計、弱教師あり学習、誤ったラベルに対する堅牢性、データ セットのバイアスと過剰適合の問題など、次の側面については、まだ詳細に研究する必要があります。

<<:  ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

>>:  触覚を感知し、自己治癒するロボットが現実になりつつある

ブログ    
ブログ    
ブログ    

推薦する

Kerasで最もよく使われるディープラーニングAPI

[[208000]]ご存知のとおり、Keras-Python ライブラリを使用すると、独自のディー...

人工知能によりデータセンターの設計が再考される

AI が企業で大規模に導入されるにつれて、データセンターのワークロードのより大きな割合が AI によ...

小売業向け AI を活用したビデオ分析

[[330057]]人工知能 (AI) は、情報の収集からビジネス価値を抽出することを目的とするデー...

TSN タイムセンシティブネットワークテクノロジーの簡単な分析

産業インテリジェンスの継続的な発展に伴い、産業インターネットは産業インテリジェンス発展のための重要な...

...

ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...

Google Cloud と Hugging Face が AI インフラストラクチャ パートナーシップを締結

Google LLC のクラウド コンピューティング部門は本日、オープンソースの人工知能モデルを共有...

ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要

[[199042]]ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要は、著...

第4のパラダイム: AIによる意思決定が主要なビジネスシナリオを強化し、企業の質的変化の実現を支援

2021年6月23日、「変革の新パラダイム」をテーマにした2021年第4回パラダイム会議および企業イ...

...

30 行の JavaScript コードで、わずか数分でニューラル ネットワークを作成する方法を学びます。

[[203712]]ニューラルネットワークを自分で構築するのは複雑すぎますか? [[203713]...

6つのトラックと10のテクノロジー: インテリジェントボディと3D生成がAIを活性化し、空間コンピューティングがターミナル変革を切り開く

2000年前に生きていた古代人が1000年前に戻ったとしても、適応できるものは多くないかもしれません...

2021 年と自動化: 完璧な組み合わせ?

[[405206]]時が経つにつれて、技術は変化してきました。自動化に関しては、今年は徐々に成果が...

Playgroundで数値アルゴリズムを学ぶ

中学校では、数学の描画ほど恐ろしいものはありませんでした。多くの問題にはすぐに利用できる解析的解法が...

初のヒューマンモーションキャプチャーモデルをリリース! SMPLer-X: 7つのチャートを一掃

表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進...