記事「バックプロパゲーションを使用した多層ニューラル ネットワークのトレーニングの原理」では、バックプロパゲーションを直感的に理解するための完全な例が提供されています。以下は原文の翻訳です。 この記事では、バックプロパゲーション アルゴリズムを使用して多層ニューラル ネットワークをトレーニングする学習プロセスについて説明します。このプロセスを説明するために、次の図に示すように、2 つの入力と 1 つの出力を持つ 3 層のニューラル ネットワークが使用されます。 各ニューロンは 2 つの部分で構成されています。 *** の部分は入力信号と重み係数の加重合計です。 2 番目の部分は、ニューロン活性化関数と呼ばれる非線形関数です。信号 e は加重和の出力信号 (加算器の出力) です。 y=f(e)は非線形関数(要素)の出力信号です。信号 y はニューロンの出力信号でもあります。 ニューラル ネットワークをトレーニングするには、「トレーニング データセット」が必要です。トレーニング データセットは、ターゲット z (目的の出力) に対応する入力信号 (x_1 および x_2) で構成されます。ニューラル ネットワークのトレーニングは反復的なプロセスです。各反復では、トレーニング データセットからの新しいデータを使用して、ネットワーク ノードの重み係数が変更されます。全体の反復は、順方向計算と逆伝播の 2 つのプロセスで構成されます。 順方向計算: 各学習ステップは、トレーニング セットからの 2 つの入力信号から始まります。順方向計算が完了すると、ネットワークの各層の各ニューロンの出力信号値を決定できます (翻訳者注: トレーニング データ セットには隠し層のターゲット値がないため、隠し層のニューロンにはエラーはありません)。次の図は、信号がネットワークをどのように伝播するかを示しています。シンボル w(xm) は、ネットワーク入力 x_m とニューロン n 間の接続の重みを表します。シンボル y_n はニューロン n の出力信号を表します。 隠れ層信号伝播。シンボル w_mn は、ニューロン m の出力と次の層のニューロン n の入力間の接続重みを表します。 出力層信号伝播: 次のアルゴリズムステップでは、ネットワーク y の出力信号がトレーニング データセットの出力値 (ターゲット) と比較されます。この差は出力層ニューロンのエラー信号 δ と呼ばれます。 隠れ層ニューロンの出力値(トレーニング セットには隠れ層のターゲット値がありません)が不明であるため、内部ニューロンのエラー信号を直接計算することはできません。長年にわたり、多層ニューラル ネットワークをトレーニングするための効果的な方法は見つかっていません。バックプロパゲーションアルゴリズムが開発されたのは 1980 年代半ばになってからでした。バックプロパゲーション アルゴリズムは、エラー信号 δ (単一のトレーニング ステップで計算) をすべてのニューロンに伝播します。各ニューロンに対して、エラー信号がバックプロパゲーションされます。 エラーを伝播するために使用される重み係数 w_mn は、データフローの方向が変更される (信号が出力から入力に 1 つずつ伝播する) ことを除いて、順方向計算で使用される重み係数と同じです。このテクノロジーはすべてのネットワーク層で使用されます。エラーが複数のニューロンから発生した場合は、それらを合計します。下の図に示すように: 各ニューロンに対してエラー信号が計算され、各ニューロンの入力接続の重み係数を変更するために使用されます。以下の式では、df(e)/de はニューロン活性化関数の微分を表します。ニューロン活性化関数の導関数に加えて、重みに影響を与える要因には、逆伝播されたエラー信号と、ニューロン入力方向に接続された前のニューロンが含まれます。 (訳者注:ここでは導出過程は無視し、重みを変更する方法を直接示します。具体的な導出過程については、前回の記事「誤差逆伝播アルゴリズムの簡単な説明」を参照してください。原理は同じで、重みに影響を与える3つの要素が以下の式に反映されています。) 係数 η はネットワークのトレーニング速度に影響します。このパラメータを選択するにはいくつかの手法があります。最初のアプローチは、より大きなパラメータ値から始めることです。重み係数が確立されると同時に、パラメータは徐々に削減されます。 2 番目のアプローチは、小さなパラメータ値でトレーニングを開始することです。トレーニング中、パラメータは徐々に増加し、最終段階で再び減少します。低いパラメータ値でトレーニングプロセスを開始すると、重み係数を決定できます。 [この記事は51CTOのコラムニストであるShitouによるオリジナル記事です。転載する場合は著者のWeChat公開アカウントButianysから許可を得てください。] この著者の他の記事を読むにはここをクリックしてください |
<<: [私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る
今年も新学期がやってきましたが、教育者は AI テクノロジーの爆発的な進歩によって大きな倫理的プレッ...
高速でメモリ効率に優れたアテンション アルゴリズム、FlashAttention がここにあります。...
アレクサ、私の話を盗み聞きしてるの? [[330887]]私はいつもAmazon Echoにこの質問...
今日、消費者はオンライン小売業者に対して非常に高い期待を抱いています。多くの場合、顧客のショッピング...
9月26日から28日まで、北京でグローバルモバイルインターネットカンファレンス(GMIC 2018)...
売上予測は、機械学習 (ML) の一般的かつ重要な用途です。予測売上は、ベースラインを確立して新しい...
ML 以前の世界が存在していたことを信じられないこともあります。現代のデータ分析の多くは ML 技術...
データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、...
まず、Java開発の分野でさらに進歩したい場合、または付加価値の高い仕事に就きたい場合は、Java開...
1959年、ノーベル物理学賞受賞者のリチャード・ファインマンは、カリフォルニア工科大学での「体の底...
[[263771]] 5Gの進歩に伴い、コスト面でも速度面でも、中国の5Gなしでは5Gを推進するの...