バックプロパゲーションを用いた多層ニューラルネットワークのトレーニングの原理

記事「バックプロパゲーションを使用した多層ニューラルネットワークのトレーニングの原理」では、バックプロパゲーションを直感的に理解するための完全な例が提供されています。以下は原文の翻訳です。

この記事では、バックプロパゲーションアルゴリズムを使用して多層ニューラルネットワークをトレーニングする学習プロセスについて説明します。このプロセスを説明するために、次の図に示すように、2 つの入力と 1 つの出力を持つ 3 層のニューラルネットワークが使用されます。

各ニューロンは 2 つの部分で構成されています。 *** の部分は入力信号と重み係数の加重合計です。 2 番目の部分は、ニューロン活性化関数と呼ばれる非線形関数です。信号 e は加重和の出力信号 (加算器の出力) です。 y=f(e)は非線形関数（要素）の出力信号です。信号 y はニューロンの出力信号でもあります。

ニューラルネットワークをトレーニングするには、「トレーニングデータセット」が必要です。トレーニングデータセットは、ターゲット z (目的の出力) に対応する入力信号 (x_1 および x_2) で構成されます。ニューラルネットワークのトレーニングは反復的なプロセスです。各反復では、トレーニングデータセットからの新しいデータを使用して、ネットワークノードの重み係数が変更されます。全体の反復は、順方向計算と逆伝播の 2 つのプロセスで構成されます。

順方向計算: 各学習ステップは、トレーニングセットからの 2 つの入力信号から始まります。順方向計算が完了すると、ネットワークの各層の各ニューロンの出力信号値を決定できます (翻訳者注: トレーニングデータセットには隠し層のターゲット値がないため、隠し層のニューロンにはエラーはありません)。次の図は、信号がネットワークをどのように伝播するかを示しています。シンボル w(xm) は、ネットワーク入力 x_m とニューロン n 間の接続の重みを表します。シンボル y_n はニューロン n の出力信号を表します。

隠れ層信号伝播。シンボル w_mn は、ニューロン m の出力と次の層のニューロン n の入力間の接続重みを表します。

出力層信号伝播:

次のアルゴリズムステップでは、ネットワーク y の出力信号がトレーニングデータセットの出力値 (ターゲット) と比較されます。この差は出力層ニューロンのエラー信号 δ と呼ばれます。

隠れ層ニューロンの出力値（トレーニングセットには隠れ層のターゲット値がありません）が不明であるため、内部ニューロンのエラー信号を直接計算することはできません。長年にわたり、多層ニューラルネットワークをトレーニングするための効果的な方法は見つかっていません。バックプロパゲーションアルゴリズムが開発されたのは 1980 年代半ばになってからでした。バックプロパゲーションアルゴリズムは、エラー信号 δ (単一のトレーニングステップで計算) をすべてのニューロンに伝播します。各ニューロンに対して、エラー信号がバックプロパゲーションされます。

エラーを伝播するために使用される重み係数 w_mn は、データフローの方向が変更される (信号が出力から入力に 1 つずつ伝播する) ことを除いて、順方向計算で使用される重み係数と同じです。このテクノロジーはすべてのネットワーク層で使用されます。エラーが複数のニューロンから発生した場合は、それらを合計します。下の図に示すように:

各ニューロンに対してエラー信号が計算され、各ニューロンの入力接続の重み係数を変更するために使用されます。以下の式では、df(e)/de はニューロン活性化関数の微分を表します。ニューロン活性化関数の導関数に加えて、重みに影響を与える要因には、逆伝播されたエラー信号と、ニューロン入力方向に接続された前のニューロンが含まれます。（訳者注：ここでは導出過程は無視し、重みを変更する方法を直接示します。具体的な導出過程については、前回の記事「誤差逆伝播アルゴリズムの簡単な説明」を参照してください。原理は同じで、重みに影響を与える3つの要素が以下の式に反映されています。）

係数 η はネットワークのトレーニング速度に影響します。このパラメータを選択するにはいくつかの手法があります。最初のアプローチは、より大きなパラメータ値から始めることです。重み係数が確立されると同時に、パラメータは徐々に削減されます。 2 番目のアプローチは、小さなパラメータ値でトレーニングを開始することです。トレーニング中、パラメータは徐々に増加し、最終段階で再び減少します。低いパラメータ値でトレーニングプロセスを開始すると、重み係数を決定できます。

[この記事は51CTOのコラムニストであるShitouによるオリジナル記事です。転載する場合は著者のWeChat公開アカウントButianysから許可を得てください。]

この著者の他の記事を読むにはここをクリックしてください

<<: [私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

>>: 顔スキャンの時代、顔認識起業家の進むべき道