畳み込みニューラルネットワークの基礎を1つの記事で学びます。

今日は畳み込みニューラルネットワークについてお話します。畳み込みニューラルネットワークは、主に、畳み込みニューラルネットワークの歴史、完全結合層、畳み込み層、プーリング層の 4 つの部分から構成されます。

CNN の正式名称は畳み込みニューラルネットワークであり、そのプロトタイプは 1998 年に LeCun によって発明された LeNet ネットワーク構造です。

LeNet ネットワークアーキテクチャ

では、ニューラルネットワークとは一体何でしょうか?畳み込み層を持つものはすべて畳み込みニューラルネットワークと呼ぶことができると言えます。

ニューラルネットワークの歴史

1986年: Rumelhart、Hintonらがバックプロパゲーションアルゴリズムを提案した。

1998年: LeCun が BP ニューラルネットワークに基づいて LeNet ネットワークをトレーニングし、CNN が本格的に始動しました。

2006年: Hinton が科学論文で初めてディープラーニングの概念を提案しました。

2012年：実は、ヒントンが2006年にディープニューラルネットワークを提唱した後、多くの人から疑問視されました。しかし、2012年にヒントンの学生アレックス・クリジェフスキーは、寮でGPUを使用してディープラーニングモデルを開発し、コンピュータービジョンのトップ分野でILSVRC 2012チャンピオンを獲得しました。数百万レベルのImageNetデータセットでは、その効果は従来の方法よりもはるかに優れており、精度率は70％から80％に向上しました。

完全接続層

実際、完全結合層は脳のニューロン構造を模倣しています。次のことがわかります。

出力値 = 入力値 x に重み w をつけて、活性化関数を通した累積結果。正式には:

次に、ニューロンを列に配置し、列を完全に接続して BP ニューラルネットワークを取得します。

BP ニューラルネットワークアルゴリズムには、信号の順方向伝播とエラーの逆方向伝播という 2 つのプロセスが含まれます。つまり、エラー出力は入力から出力に計算され、重みとしきい値は出力から入力に調整されます。

BP ニューラルネットワークを理解するために例を見てみましょう。

例: BPニューラルネットワークを使用したデジタル認識

たとえば、最初の画像では 0 が示されています。この画像は複数のピクセルで構成されており、各ピクセルには 3 つの RGB チャネルがあります。その後、グレー表示されて 2 番目の画像になり、グレー表示された画像が 2 値化されて 3 番目の画像になります。

次に、画像に対して確率処理を実行します。たとえば、最初のボックスでは、白いブロック/すべてのブロック = 0.2 です。対応する戦略で処理した後、最初の値は 0.2 になります。同様に、上図の右側の行列も得られます。

次に、行列を 1*n 行ベクトルに変換して処理します。この処理された形式により、ニューラルネットワークの入力処理が改善されます。

ニューラルネットワークの入力方法がわかったので、数字をより適切に識別するための最終出力はどうあるべきでしょうか?ワンホットエンコーディング！

つまり、それぞれの数字がコードに対応しており、1000000000と入力すると0と判断される、という具合です。

入力と出力ができたので、ニューラルネットワークを通じてトレーニングすることができます。

まず、入力層のニューロン数を25ノード、出力層を10ノードに設定します。上記の1*nベクトルをBPニューラルネットワークに入力し、隠れ層を通過させて最後に出力層に渡してワンホットエンコーディングします。出力層はソフトマックス活性化関数を通じて各数字の出現確率を取得し、数字を認識できるようにします。

畳み込み層

畳み込み層とは何でしょうか?前回の記事でもお話しましたが、興味のある方は直接確認してみてください。

漫画: 畳み込みニューラルネットワークにおける畳み込みカーネルとは正確には何ですか?

漫画：畳み込みニューラルネットワークが画像データの処理に適しているのはなぜですか?

実践スキル | 畳み込みニューラルネットワークの始め方

畳み込み層の説明で、畳み込みカーネルが境界を越えた場合はどうすればよいのかという質問をしたいと思います。たとえば、次のようになります。

このような行列を想定して、ステップサイズが 2 の 3*3 スライディングウィンドウを使用する場合、次の状況にどのように対処すればよいでしょうか。

以下に示すように、Padding を使用して 0 で埋めることができます。

畳み込み演算中、畳み込み演算後の行列のサイズは次の要因によって決まります。

入力画像サイズ W*W
フィルターサイズ F*F
歩幅S
パディングのピクセル数 P

畳み込み後の行列のサイズは特定のパターンに従うため、一般的な式は次のようになります。

N=(W-F+2P)/S+1

プーリング層

プーリング層はなぜ存在するのでしょうか?現在の入力データは大きすぎて冗長な情報が多数含まれているため、画像マトリックスをダウンサンプリングし、特徴マップに対してスパース処理を実行してデータ計算量を削減する方法を見つける必要があります。次に、MaxPooling ダウンサンプリングを使用して、プーリング層が何であるかを示します。

上図の赤い部分の値は1 1 5 6です。MaxPoolingを使用しているので最大値を取ります。右図の赤い部分はmax(1,1,5,6)=6となり、ダウンサンプリングの結果となります。

最大ダウンサンプリングと同様に、以下に示すように平均ダウンサンプリングレイヤーもあります。

プーリング層をよりよく理解して使用するために、プーリング層の 3 つの特性をまとめました。

トレーニングパラメータなし
チャネルは変更せず、特徴行列のwとhのみが変更されます。
通常、プールサイズは畳み込みカーネルのストライドと同じです。

今日は、ニューラルネットワークの開発の歴史、全結合層、畳み込み層、プーリング層など、畳み込みニューラルネットワークの全体的なアーキテクチャについてお話します。お読みいただきありがとうございました〜

<<: 教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした

>>: 人工知能の70年間で、研究者が最も直面したくない痛い教訓は...

畳み込みニューラルネットワークの基礎を1つの記事で学びます。

人工知能は知的ではないのでしょうか?最初から方向性が間違っていた

トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

ロボットは騙されることを恐れない

マイクロソフト、OpenAI、グーグルなどの大手企業が共同でフロンティアモデルフォーラムを設立し、責任ある人工知能の開発を推進している。

Python の基礎: FP 成長アルゴリズムの構築

ロボットはアイテムを渡すときに反応が遅いですか? NVIDIA が AI モデルを開発: データセットには 15 万枚以上の画像が含まれ、成功率は 100%

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか？

推薦する

大規模グラフニューラルネットワークの応用と最新のパラダイムの探究

IoTとAIの相乗効果：予知保全の可能性を解き放つ

2021 年に人工知能が最も大きく発展する分野はどれでしょうか?

ガートナー 2019 人工知能成熟サイクルのトレンド

マッキンゼーの中国人工知能レポートは3つの大きな課題に直面している

TensorFlow を使用したコンテキストチャットボットの実装

ディープラーニングの概要: パーセプトロンからディープネットワークまで

超実用的画像超解像再構成技術の原理と応用

マスク氏の最新チップ：脳とコンピューターの相互作用に特化し、視覚障害者が「見る」ことを可能にする

AI を使って体内最大の臓器を管理すれば、本当にもっと美しくなれるのでしょうか?

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。