ディープラーニングにおける正規化の概要（Python コード付き）

編集者注: 日々の仕事や研究において、データサイエンティストが遭遇する最も一般的な問題の 1 つは、過剰適合です。トレーニングセットではパフォーマンスが良好だったのに、テストセットではパフォーマンスがひどいモデルがあったことはありませんか?モデリングコンテストに参加した時、自分のモデルはスコアではトップにランクされるはずだったのに、コンテスト主催者が発表したスコアボードでは何百位も後ろにランクされていた、という経験をしたことはありませんか?このような経験をしたことがある場合は、この記事が役に立ちます。この記事では、過剰適合を回避し、モデルのパフォーマンスを向上させる方法を説明します。

この記事では、オーバーフィッティングの概念と、オーバーフィッティングの問題を解決するために使用されるいくつかの正規化方法について詳しく説明し、さらにこの知識を強化するために Python のケーススタディを補足します。この記事は、読者がニューラルネットワークと Keras の実装に関してある程度の経験があることを前提としています。

正規化とは何か

このトピックに入る前に、次の画像をご覧ください。

過剰適合について話すときはいつでも、この図が「死体を鞭打つ」ために時々引き出されます。上の図に示すように、最初はモデルがすべてのデータポイントを適切に適合できず、つまり、データ分布を反映できず、適合不足になっています。トレーニング回数が増えるにつれて、徐々にデータのパターンを見つけ出し、できるだけ多くのデータポイントをフィッティングしながらデータの傾向を反映できるようになります。このとき、より優れたパフォーマンスを発揮するモデルです。これを基にトレーニングを続けると、モデルはトレーニングデータの詳細とノイズをさらに調査し、すべてのデータポイントに適合させるためにあらゆる手段を講じます。この時点で、モデルは過剰適合します。

つまり、左から右に向かって、モデルの複雑さは徐々に増加し、トレーニングセットでの予測誤差は徐々に減少しますが、テストセットでの誤差率は凸曲線を示します。

出典: スライドプレーヤー

これまでにニューラルネットワークを構築したことがある場合は、おそらく次の教訓を学んだことがあるでしょう。ネットワークが複雑になるほど、過剰適合しやすくなります。データを適合させながらモデルをより一般化するために、正規化を使用して学習アルゴリズムに微妙な変更を加え、モデルの全体的なパフォーマンスを向上させることができます。

正規化と過剰適合

オーバーフィッティングはニューラルネットワークの設計と密接に関連しているので、まずはオーバーフィッティングニューラルネットワークを見てみましょう。

以前に弊社の「ゼロから学ぶ: Python と R でのニューラルネットワークの理解とコーディング (完全版)」を読んだことがある場合、またはニューラルネットワークの正規化の概念について基本的な知識がある場合は、上の図の矢印の付いた線に実際に重みがあり、ニューロンは入力と出力が格納される場所であることがわかるはずです。公平を期すために、つまり、ネットワークが最適化方向に制限されすぎないようにするために、ニューロンの加重行列にペナルティを課すための正規化ペナルティ項を事前に追加する必要もあります。

正則化係数を大きく設定して、一部の重み行列の値がほぼゼロになるようにすると、より単純な線形ネットワークが得られ、適合不足になる可能性があります。

したがって、係数が大きいほど良いことになります。下の図に示すように、適合度の高いモデルを得るためには、この正則化係数の値を最適化する必要があります。

ディープラーニングにおける正則化

L2 および L1 正規化

L1 と L2 は最も一般的な正則化方法であり、コスト関数の後に正則化項を追加します。

コスト関数 = 損失（バイナリクロスエントロピーなど） + 正則化項

この正則化項の追加により、重みが軽減されます。つまり、ニューラルネットワークの複雑さが軽減されます。これは、「ネットワークが複雑になればなるほど、過剰適合しやすくなる」という考えと相まって、理論的には、過剰適合を直接防止すること (オッカムの剃刀) に相当します。

もちろん、この正規化項は L1 と L2 では異なります。

L2の場合、コスト関数は次のように表すことができます。

ここで、λ は正則化係数であり、より良い結果を得るために最適化できるハイパーパラメータです。上記の式を導出すると、重みwの前の係数は1−ηλ/mとなります。η、λ、mはすべて正の数なので、1−ηλ/mは1未満となり、wは減少傾向にあるため、L2正則化は重み減衰とも呼ばれます。

L1の場合、コスト関数は次のように表すことができます。

L2とは異なり、ここでは重みwの絶対値にペナルティを課します。上記の式を微分すると、-sgn(w) という項を含む式が得られます。これは、w が正の数の場合、w は 0 に向かって減少し、w が負の数の場合、w は 0 に向かって増加することを意味します。したがって、L1 の考え方は、重みを 0 に向かって移動し、それによってネットワークの複雑さを軽減することです。

したがって、モデルを圧縮したい場合は L1 が適していますが、単に過剰適合を防ぎたい場合は、通常 L2 が使用されます。 Keras では、正規化を直接呼び出して、任意のレイヤーで正規化を実行できます。

例: 完全接続層で L2 正則化を使用するコード:

kerasから、 regularizersmodel.add (Dense(64、input_dim=64、kernel_regularizer=regularizers.l2(0.01 )をインポートします。

注: ここでの 0.01 は正規化係数 λ の値であり、グリッド検索によってさらに最適化できます。

ドロップアウト

ドロップアウトは最も興味深い正則化手法の 1 つであり、非常にうまく機能するため、ディープラーニングの分野でよく使用される手法の 1 つです。わかりやすく説明するために、ニューラルネットワークが次のようになっていると仮定しましょう。

では、Dropout は具体的に何をドロップするのでしょうか?下の図を見てみましょう。各反復で、いくつかのニューロンがランダムに選択され、それらすべてが「強制終了」されます。つまり、ニューロンが対応する入力と出力とともに「削除」されます。

L1 および L2 によるコスト関数の修正と比較すると、ドロップアウトはネットワークをトレーニングするためのテクニックに似ています。トレーニングが進むにつれて、ニューラルネットワークは各反復で非表示層/入力層のニューロンの一部 (ハイパーパラメータ、通常は半分) を無視します。これにより、異なる出力が生成され、その一部は正しく、一部は間違っています。

このアプローチは、より多くのランダム性を捉えることができるアンサンブル学習に似ています。アンサンブル学習分類器は通常、単一の分類器よりもうまく機能します。同様に、ネットワークはデータ分布に適合する必要があるため、Dropout 後のモデルの出力のほとんどは間違いなく正しく、ノイズデータの影響はごく一部を占めるだけであり、最終結果に大きな影響を与えません。

これらの要因により、ニューラルネットワークがより大きく、よりランダムな場合に、ドロップアウトを使用するのが一般的です。

Keras では、keras コアレイヤーを使用してドロップアウトを実装できます。以下は Python コードです。

から  keras.layers.core をインポート Dropoutmodel = Sequential([Dense(output_dim=hidden1_num_units, input_dim=input_num_units, activation= 'relu' ),Dropout(0.25),Dense(output_dim=output_num_units, input_dim=hidden5_num_units, activation= 'softmax' ),])

注: ここでは、Dropout のハイパーパラメータとして 0.25 を設定しました (毎回 1/4 を削除)。グリッド検索を通じてさらに最適化できます。

データ拡張

オーバーフィッティングとは、モデルによってデータセット内のノイズや詳細が過剰に捕捉されることであるため、オーバーフィッティングを防ぐ最も簡単な方法は、トレーニングデータの量を増やすことです。しかし、機械学習のタスクでは、データの収集とラベル付けのコストが高すぎるため、データ量を増やすことはそれほど簡単ではありません。

手書きの数字画像を扱っているとします。トレーニングセットを拡張するには、回転、反転、縮小/拡大、変位、切り捨て、ランダムノイズの追加、歪みの追加などの方法を使用できます。処理済みの画像をいくつか紹介します。

これらの方法はデータ拡張です。ある意味では、機械学習モデルのパフォーマンスはデータの量に依存するため、データの強化によりモデル予測の精度が大幅に向上します。場合によっては、これはモデルを改善するために必要なテクニックです。

Keras では、トレーニングデータを前処理するために使用できる多数のパラメーターのリストを提供する ImageDataGenerator を使用して、これらすべての変換を実行できます。これを実装するためのサンプルコードを次に示します。

keras.preprocessing.imageからImageDataGenerator をインポートします。datagen = ImageDataGenerator(horizontal flip= True )datagen.fit(train)

早期終了

これはクロス検証戦略です。トレーニングの前に、トレーニングセットの一部を検証セットとして抽出します。トレーニングが進むにつれて、検証セットでのモデルのパフォーマンスがどんどん悪くなる場合は、トレーニングを手動ですぐに停止します。この早期停止の方法は、早期停止と呼ばれます。

上の図では、点線の部分でトレーニングを停止する必要があります。それ以降はモデルが過剰適合し始めるためです。

Keras では、コールバック関数を呼び出してトレーニングを早期に停止することができます。サンプルコードは次のとおりです。

 keras.callbacksからEarlyStoppingEarlyStopping(monitor= 'val_err' , patients=5)をインポートします。

ここで、monitor は監視するエポックの数を指し、val_err は検証エラーを表します。

忍耐とは、5 つのエポックが連続して経過しても、モデルの予測結果がそれ以上改善されないことを意味します。上の図と組み合わせると、点線以降、モデルはトレーニングされたエポックごとに検証エラーが高くなり (検証精度が低くなり)、5 つの連続エポックの後にトレーニングが早期に停止することがわかります。

注意：5エポックのトレーニング後にモデルの検証精度が向上する場合があるので、ハイパーパラメータの選択には注意が必要です。

<<: 心が開かれました！将来、人工知能がもたらす素晴らしい生活は、あなたが想像する以上のものになるかもしれません...

>>: 人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

清華大学の「自然言語プログラミング成果物」が利用可能になりました！ 100以上のプログラミング言語をサポートし、効率性が向上しました

ディープラーニングにおける正規化の概要（Python コード付き）

目次

正規化とは何か

正規化と過剰適合

ディープラーニングにおける正則化

ドロップアウト

データ拡張

早期終了

清華大学の「自然言語プログラミング成果物」が利用可能になりました！ 100以上のプログラミング言語をサポートし、効率性が向上しました

AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成！

ニューラルネットワークにおける量子化と蒸留

人間には知恵と愚かさの両方がある。AIが人間らしくなるためには愚かさも必要だろうか？

コンピューティング要件が 1% 削減されました。清華大学が初めて「二値化スペクトル再構成アルゴリズム」を提案、コードは完全オープンソース｜NeurIPS 2023

Uberの自動運転車による死亡事故の捜査に新たな進展：横断歩道の外を歩く歩行者を識別できない

独学で機械学習エンジニアを目指す人のための 10 の戒律

人力資源社会保障省：人工知能人材の不足は500万人を超える

新しいAIは「人間の脳に潜り込み」、どんな外見が最も魅力的かを理解できる

自動化でワークライフバランスを改善

推薦する

Kmojiの魔法の表情を支えるAI技術

老子のアルゴリズム思想の分析

NetEase Cloud Musicのリアルタイムデータウェアハウスガバナンス最適化の実践

人工知能か、それとも人工的な愚かさか?予想外の大規模なアルゴリズムのロールオーバー

機械学習で避けるべき3つの落とし穴

インベントリ | 2018 年のベスト 30 の機械学習プロジェクト

特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

データガバナンスとビッグモデル統合の実践

小売業における AI の ROI をマクロとミクロのレベルで測定

大学卒業後、彼はGoogleに入社し、先駆的な作品「Thinking Chain」を執筆した。このOpenAIの新人は、学部生の質問に答えている。

よりスケーラブルになるにはどうすればよいでしょうか?

オリンピックチャンピオンでさえ正しく答えられなかった質問が ML モデルのテストに使用されているのですか? GPT-3: できない