レゴブロックを積み上げるように: ニューラルネットワークの数学をゼロから説明する

ニューラルネットワークは、線形モジュールと非線形モジュールを巧みに組み合わせたものです。これらのモジュールをインテリジェントに選択して接続すると、非線形決定境界を利用して分類が可能なニューラルネットワークなど、あらゆる数学関数を近似する強力なツールが得られます。

コードを実行する手順は次のとおりです。

 git クローン https://github.com/omar-florez/scratch_mlp/
 python スクラッチmlp/スクラッチmlp.py

トレーニング可能なパラメータを更新するバックプロパゲーション技術は直感的でモジュール的な性質を持っていますが、このトピックについては詳しく説明されていません。レゴブロックの例えを使って、ニューラルネットワークを 1 つずつゼロから構築し、その内部の仕組みを探ってみましょう。

ニューラルネットワークはレゴブロックで作られている

上の図は、ニューラルネットワークのトレーニングに使用される数学の一部を示しています。これについてはこの記事で説明します。読者が興味深いと思う点の 1 つは、ニューラルネットワークが異なる目標を持つモジュールのスタックであるということです。

入力変数 X は、行が観測値で列が次元である行列に格納されている生データをニューラルネットワークに供給します。
重みW_1は入力Xを最初の隠れ層h_1にマッピングします。重み W_1 は線形カーネルとして機能します。
シグモイド関数は、隠し層の数値が 0 ～ 1 の範囲外にならないようにします。結果はニューラル活性化の配列、h_1 = Sigmoid(WX) です。

この時点では、これらの操作は単に一般的な線形システムを形成するだけであり、非線形の相互作用をモデル化することはできません。別のレイヤーを追加すると、モジュール構造に深みが加わり、状況が変わります。ネットワークが深くなるほど、より微妙な非線形相互作用を学習し、より複雑な問題を解決できるようになります。おそらくこれが、ディープニューラルモデルが台頭した理由の 1 つです。

なぜこの記事を読む必要があるのでしょうか?

ニューラルネットワークの内部を理解していれば、問題に遭遇したときに最初に何を変更すればよいかをすぐに把握し、不変かつ予想される動作であることがわかっているアルゴリズムの部分をテストするための戦略を立てることができます。

機械学習モデルのデバッグは複雑な作業だからです。経験則として、数学モデルは最初に試しただけではうまく機能しません。新しいデータに対する精度が低かったり、トレーニングに時間がかかりすぎたり、メモリを大量に使用したり、大きな負の誤差や NAN 予測を返したりする可能性があります... 場合によっては、アルゴリズムの仕組みを知ることで、タスクがはるかに便利になることがあります。

トレーニングに時間がかかりすぎる場合は、ミニバッチサイズを増やすと、観測値の分散が減り、アルゴリズムの収束に役立つ場合があります。
NAN 予測が表示される場合、アルゴリズムが大きな勾配を受信し、メモリ不足になっている可能性があります。これは、反復回数が多すぎると爆発する行列乗算と考えることができます。学習率を下げると、これらの値も減少します。レイヤーの数を減らすと乗算回数を減らすことができます。せん断勾配によってもこの問題を大幅に制御できます。

具体例: XOR関数の学習

ブラックボックスを開けてみましょう。ここで、XOR 関数を学習するニューラルネットワークをゼロから構築します。この非線形関数の選択は決してランダムではありません。バックプロパゲーションがなければ、直線で分類することを学習するのは困難です。

この重要な概念を説明するために、下の図で直線が XOR 関数の出力の 0 と 1 を分類できないことに注目してください。現実の問題も非線形に分離可能です。

このネットワークのトポロジーは非常にシンプルです。

入力変数Xは2次元ベクトルである
重みW_1はランダムに初期化された値を持つ2x3行列である
隠れ層 h_1 には 3 つのニューロンが含まれています。各ニューロンは観測値の加重和を入力として受け取ります。これは下の図で緑色で強調表示されている内積です: z_1 = [x_1, x_2][w_1, w_2]
重みW_2はランダムに初期化された値を持つ3x2行列である。
出力層h_2には2つのニューロンが含まれています。これは、XOR関数の出力が0（y_1 = [0,1]）または1（y_2 = [1,0]）のいずれかであるためです。

次の図はより直感的です。

それではこのモデルをトレーニングしてみましょう。この単純な例では、トレーニング可能なパラメータは重みですが、現在の研究では、最適化できるより多くの種類のパラメータが研究されていることに注意する必要があります。たとえば、レイヤー間のショートカット接続、正規化された分布、トポロジ構造、残差、学習率など。

バックプロパゲーションは、ラベル付けされた観測値のバッチを与えられた場合に、事前定義されたエラーメトリック (損失関数) を最小化する方向 (勾配) で重みを更新する方法です。このアルゴリズムは何度も発見されており、逆累積モードでの自動微分と呼ばれるより一般的な手法の特殊なケースです。

ネットワークの初期化

ネットワークの重みを乱数で初期化しましょう

前進ステップ:

このステップの目的は、出力層 h_2 のベクトルが計算されるまで、入力変数 X をネットワークの各層に渡すことです。

計算は次のようになります:

重みW_1を線形カーネルとして使用して、入力データXに対して線形変換を実行します。

加重合計はシグモイド活性化関数を使用してスケーリングされ、最初の隠し層 h_1 の値を取得します。元の 2D ベクトルが 3D 空間にマッピングされていることに注意してください。

同様のプロセスがレイヤー 2 h_2 でも発生します。まず、入力データである最初の隠し層の加重合計 z_2 を計算しましょう。

次に、シグモイド活性化関数を計算します。ベクトル[0.37166596 0.45414264]は、与えられた入力Xに対してネットワークによって計算された対数確率または予測ベクトルを表します。

全体の損失を計算する

「実際の値から予測値を引いた値」とも呼ばれるこの損失関数の目的は、予測ベクトル h_2 と手動ラベル y の間の距離を定量化することです。

この損失関数には、リッジ回帰の形式で大きな重みにペナルティを課す正規化項が含まれていることに注意してください。言い換えれば、重みの二乗が大きいほど損失関数が大きくなり、これを最小限に抑えたいのです。

逆の手順:

このステップの目的は、損失関数を最小化する方向にニューラルネットワークの重みを更新することです。後で説明するように、これは以前に計算された勾配を再利用し、微分可能な関数に大きく依存する再帰アルゴリズムです。これらの更新により損失関数が減少するため、ニューラルネットワークは既知のクラスで観測のラベルを近似することを「学習」します。これは一般化と呼ばれる特性です。

前進ステップとは異なり、このステップは逆の順序で実行されます。まず、出力層の各重みに対する損失関数の偏微分 (dLoss/dW_2) を計算し、次に隠れ層の偏微分 (dLoss/dW1) を計算します。それぞれの導関数について詳しく説明します。

(1) dLoss/dW_2:

連鎖律は、ニューラルネットワークの勾配計算をいくつかの微分部分に分解できることを示しています。

記憶を助けるために、次の表に、上で使用した関数定義とその 1 次導関数の一部を示します。

より直感的に言えば、下の図の重み W_2 (青い部分) を更新する必要があります。これを行うには、微分連鎖に沿って 3 つの偏微分を計算する必要があります。

これらの偏導関数に値を代入すると、W_2 の偏導関数を次のように計算できます。

結果は 3x2 行列 dLoss/dW_2 となり、損失関数を最小化する方向に W_2 の値が更新されます。

（２）dLoss/dW_1:

最初の隠し層 W_1 を更新するための重みを計算するために使用される連鎖律は、既存の計算を再利用できる可能性を示しています。

より直感的に言えば、出力層から重み W_1 へのパスは、後の層ですでに計算されている偏微分に遭遇します。

たとえば、偏導関数 dLoss/dh_2 と dh_2/dz_2 は、出力層の学習された重み dLoss/dW_2 の依存関係として前のセクションで計算されています。

すべての導関数をまとめると、再び連鎖律を適用して、隠れ層 W_1 の重みを更新できます。

最後に、重みに新しい値を割り当てて、ニューラルネットワークのトレーニングの 1 つのステップを完了します。

成し遂げる

線形代数エンジンとして numpy のみを使用して、上記の数式をコードに変換してみましょう。ニューラルネットワークはループでトレーニングされ、各反復でニューラルネットワークに標準入力データが提示されます。この小さな例では、各反復でデータセット全体を考慮するだけです。前方ステップ、損失関数、および後方ステップの計算は、対応する勾配 (行列 dL_dw1 および dL_dw2) を使用して各サイクルでトレーニング可能なパラメータを更新するため、適切に一般化されます。

コードは次のリポジトリに保存されています: https://github.com/omar-florez/scratch_mlp

このコードを実行してみましょう。

以下に、XOR 関数を近似するために多数の反復でトレーニングされたニューラルネットワークをいくつか示します。

。

左: 精度、中央: 学習した決定境界、右: 損失関数

まず、隠れ層に 3 つのニューロンを持つニューラルネットワークが弱い理由を見てみましょう。モデルは、最初は直線で始まり、その後非線形の動作を示す単純な決定境界を使用してバイナリ分類を実行することを学習します。トレーニングが続くと、右図の損失関数も大幅に減少します。

隠れ層に 50 個のニューロンを持つニューラルネットワークにより、複雑な決定境界を学習するモデルの能力が大幅に向上します。これにより、より正確な結果が得られるだけでなく、ニューラルネットワークをトレーニングするときに重大な問題となる勾配爆発も発生します。勾配が非常に大きい場合、バックプロパゲーションでの乗算によって大きな更新重みが生成されます。このため、トレーニングの最後の数ステップ (ステップ > 90) で損失関数が突然増加します。損失関数の正規化項は、大きくなった重みの二乗値（sum(W²)/2N）を計算します。

ご覧のとおり、この問題は学習率を下げることで回避できます。これは、時間の経過とともに学習率を下げる戦略を実装することで実現できます。あるいは、より強力な正規化、おそらく L1 または L2 を適用することで実現できます。勾配消失と勾配爆発は非常に興味深い現象であり、後で完全な分析を行う予定です。

オリジナルリンク:

https://medium.com/towards-artificial-intelligence/one-lego-at-a-time-explaining-the-math-of-how-neural-networks-learn-with-implementation-from-scratch-39144a1cf80

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: MITチームは、わずか5つの部品を使用してマイクロロボットを組み立てました。このロボットは、「変形」によってさまざまな機能を実現することもできます。

>>: もう感情を隠せない？歩く姿勢からAIがわかる！

中科世宇の王金橋氏：5Gは新しい警察アプリケーションを強化し、交通管理の「細かく科学的な」管理を改善します

レゴブロックを積み上げるように: ニューラルネットワークの数学をゼロから説明する

中科世宇の王金橋氏：5Gは新しい警察アプリケーションを強化し、交通管理の「細かく科学的な」管理を改善します

6つの新しいことに焦点を当て、新境地を開拓し、プロジェクトは変革を促進するための王様です。2020年中国（太原）人工知能会議が開催されました

人間の審判が解雇される？冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

自動運転は飛躍的な進歩を遂げており、マスク氏は年内にL5レベルの自動運転が実現すると発言した。

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

「AI Beanプロジェクト」は、人工知能を活用して、故郷の貧しい女性たちに雇用機会を創出し、彼女たちが仕事と子育てを同時に行えるようにするプロジェクトです。

カナダ工学アカデミー会員のソン・リャン氏：将来の人工知能システムはネットワークの形で存在するだろう

推薦する

マイクロソフトの社内文書が公開：パノス・パナイ氏が退社後、WindowsとSurfaceの将来について説明

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

JavaScript ChatGPT プラグインの構築、学習しましたか?

金融技術分野における人工知能と機械学習の応用と開発

ChatGPT Enterprise Editionがリリースされ、OpenAIはこれをこれまでで最も強力なバージョンと呼んでいる

この「PhD Study Simulator」はとてもリアルです。何回諦めるように説得されるか試してみてください。

「自然言語処理」とは何ですか? 具体的に何を「処理」するのですか?

インターネット業界における顔認識機能の認知に関する調査報告書