ニューラルネットワークの過剰適合を避ける 5 つのテクニック

この記事では、ニューラルネットワークをトレーニングするときに過剰適合を回避する 5 つの手法を紹介します。

過去 1 年間、私はディープラーニングの分野で働いてきました。この間、私は畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、オートエンコーダーなど、多くのニューラルネットワークを使用してきました。ディープニューラルネットワークで遭遇する最も一般的な問題の 1 つは、トレーニング中の過剰適合です。

モデルがノイズの多いデータの傾向を予測しようとすると、モデルパラメータの数が多くなり、複雑さが増すため、過剰適合が発生する可能性があります。過剰適合モデルは、予測される傾向がデータの実際の状態を反映していないため、不正確になることがよくあります。モデルが既知のデータ (トレーニングセット) に対しては良好な予測結果を示し、未知のデータ (テストセット) に対してはパフォーマンスが低いという事実によって、オーバーフィッティングが発生しているかどうかを判断できます。機械学習モデルの目標は、モデルが未知のデータを予測できるようにするために、トレーニングセットから問題領域内の任意のデータセットに適切に一般化することです。

この記事では、ニューラルネットワークをトレーニングするときに過剰適合を回避する 5 つの手法を紹介します。

1. 簡略化されたモデル

過剰適合に対処するための最初のステップは、モデルの複雑さを軽減することです。複雑さを軽減するには、単にレイヤーを削除するか、ニューロンの数を減らしてネットワークを小さくします。同時に、ニューラルネットワーク内のさまざまなレイヤーの入力次元と出力次元を計算することも非常に重要です。削除するレイヤーの数やニューラルネットワークのサイズに関する一般的なルールはありませんが、ニューラルネットワークが過剰適合している場合は、サイズを縮小してみてください。

2. 早期終了

早期停止は、勾配降下法などの反復法を使用してモデルをトレーニングする場合の正規化の一種です。すべてのニューラルネットワークは勾配降下法で学習するため、早期停止はすべての問題に適用される一般的な手法です。このアプローチを使用してモデルを更新し、各反復でトレーニングセットに適合するようにします。この方法により、テストセットでのモデルのパフォーマンスをある程度向上させることができます。しかし、それ以上に、トレーニングセットへのモデルの適合性を向上させると、一般化エラーが増加します。早期停止ルールは、モデルが過剰適合し始める前に実行できる反復回数を指定します。

早期停止

上の画像はこのテクニックを示しています。ご覧のとおり、数回の反復後、トレーニングエラーは依然として減少しているにもかかわらず、テストエラーは増加し始めます。

3. データ拡張を使用する

ニューラルネットワークでは、データ拡張とは、単にデータのサイズを増やすこと、つまりデータセット内の画像の数を増やすことを意味します。一般的な画像強調技術としては、反転、変換、回転、拡大縮小、明るさの変更、ノイズの追加などがあります。より包括的な参考資料については、以下をご覧ください。

アルバムメンテーション:

https://github.com/albumentations-team/albumentations

画像:

https://github.com/aleju/imgaug

データ拡張

上図に示すように、データ拡張を使用すると、複数の類似した画像を生成できます。これにより、データセットのサイズを増やし、過剰適合を減らすことができます。データ量が増えると、モデルはすべてのサンプルに過剰適合できなくなるため、一般化する必要があります。

4. 正規化を使用する

正規化はモデルの複雑さを軽減する方法です。損失関数にペナルティ項を追加することで正規化を実現します。最も一般的な手法は、L1 正規化と L2 正規化です。

L1 ペナルティ項の目的は、重みの絶対値を最小化することです。式は次のとおりです。

L1 正規化

L2 ペナルティ項の目的は、重みの二乗を最小化することです。式は次のとおりです。

L2 正規化

次の表は、2 つの正規化方法を比較したものです。

L1 正規化

L2 正則化

1. L1ペナルティ重みの絶対値の合計

1. L2ペナルティ重みの二乗の合計

2. L1はシンプルで解釈可能なモデルを生成する

2. L2正則化は複雑なデータパターンを学習できる

3. L1は極端な値の影響を受けにくい

3. L2は極端な値に大きく影響される

L1 正則化と L2 正則化

では、どの方法が過剰適合を回避するのにより効果的でしょうか?答えは「それは場合による」です。データが複雑すぎて正確にモデル化できない場合は、データ内に存在する固有のパターンを学習できるため、L2 の方が適しています。データが正確にモデル化できるほど単純な場合は、L1 がより適しています。私が遭遇するほとんどのコンピュータービジョンの問題では、L2 正規化によってほぼ常により良い結果が得られます。ただし、L1 は外れ値の影響を受けにくいです。したがって、適切な正規化オプションは、解決したい問題によって異なります。

5. ドロップアウトを使用する

ドロップアウトは、ニューラルネットワークの過剰適合を防ぐための正規化手法です。 L1 や L2 などの正規化手法は、コスト関数を変更することで過剰適合を減らします。ドロップアウトはニューラルネットワーク自体を変更します。トレーニングの各反復中に、ニューラルネットワークからニューロンをランダムに削除します。異なるニューロンのセットを破棄することは、異なるニューラルネットワークをトレーニングすることと同じです。ニューラルネットワークによってオーバーフィットの方法は異なるため、ドロップアウトの最終的な効果はオーバーフィットの発生を減らすことです。

破棄方法を使用する

上の図に示すように、ドロップアウトは、トレーニングプロセス中にニューラルネットワーク内のニューロンをランダムにドロップするために使用されます。この手法は、画像分類、画像セグメンテーション、単語埋め込み、意味マッチングなど、多くの問題で過剰適合を軽減することが示されています。

結論は

要約すると、オーバーフィッティングとは何か、そしてなぜそれがニューラルネットワークで一般的な問題なのかを説明しました。次に、ニューラルネットワークのトレーニングプロセスで過剰適合を回避するための最も一般的な 5 つの方法 (モデルの簡素化、早期停止、データ拡張、正規化、ドロップアウト) を紹介します。

<<: 2019年にRedditの機械学習セクションで人気のプロジェクト17選：最新のコードとリソースがすべて利用可能

>>: インタビュアー: 「最後にアルゴリズムを書いてください。単一のリンクリストを使用して加算を実行してみましょう...」