機械学習における正則化とは何ですか?

機械学習における正則化とは何ですか?

1. はじめに

機械学習の分野では、トレーニング プロセス中にモデルが過剰適合したり、不足適合になったりすることがあります。これを防ぐために、機械学習で正規化を使用して、モデルをテスト セットに適切に適合させます。一般的に言えば、正規化は過剰適合と不足適合の可能性を減らすことで、最適なモデルを取得するのに役立ちます。

この記事では、正規化とは何か、正規化の種類について説明します。さらに、バイアス、分散、アンダーフィッティング、オーバーフィッティングなどの関連する概念についても説明します。

さっそく始めましょう!

2. バイアスと分散

バイアスと分散は、学習したモデルと実際のモデルの間のギャップをそれぞれ 2 つの側面から説明します。

両者の定義は以下のとおりです。

  • バイアスとは、すべての可能なトレーニング データ セットを使用してトレーニングされたすべてのモデルの平均出力と、実際のモデルの出力値との差です。
  • 分散は、異なるトレーニング データ セットでトレーニングされたモデルの出力値間の差です。

バイアスにより、個々のデータ ポイントに対するモデルの感度が低下し、データの一般化が向上します。モデルは孤立したデータ ポイントに対する感度が低くなり、必要な機能がそれほど複雑でなくなるため、トレーニング時間も短縮されます。偏差が大きいということは、想定される目的関数の信頼性が高いことを示します。場合によっては、モデルの適合不足につながる可能性があります。

分散は、データセット内の小さな変化に対するモデルの感度によって発生する機械学習におけるエラーの一種です。大きな変動があるため、アルゴリズムはトレーニング セット内のノイズと外れ値をモデル化します。これを説明するときに最もよく使われる用語は「過剰適合」です。新しいデータセットで評価すると、モデルは基本的に各データ ポイントを学習しているため、この場合、正確な予測を提供できません。

比較的バランスの取れたモデルはバイアスと分散が低くなりますが、バイアスと分散が高いと、アンダーフィッティングとオーバーフィッティングが発生します。

3. アンダーフィッティング

アンダーフィッティングは、モデルがトレーニング データ内のパターンを正しく学習していないために、新しいデータに正しく一般化できない場合に発生します。トレーニング データでは、適合度の低いモデルのパフォーマンスが低下し、誤った予測が行われます。アンダーフィッティングは、バイアスが高く、分散が低い場合に発生します。


4. 過剰適合

モデルがトレーニング データでは非常に優れたパフォーマンスを発揮するが、テスト データ (新しいデータ) ではパフォーマンスが低い場合、これをオーバーフィッティングと呼びます。この場合、機械学習モデルはトレーニング データ内のノイズに適合され、テスト データに対するモデルのパフォーマンスに悪影響を及ぼします。バイアスが低く分散が大きいと、過剰適合につながる可能性があります。


5. 正規化の概念

「正則化」という用語は、調整された損失関数を減らし、過剰適合や不足適合を回避するために機械学習モデルを調整する方法を表します。


正規化を使用すると、機械学習モデルを特定のテスト セットに正しく適合させ、テスト セット内のエラーを削減できます。

6. L1正規化

リッジ回帰と比較して、L1 正則化は主に損失関数にペナルティ項を追加することによって実現されます。ペナルティ項はすべての係数の絶対値の合計に等しくなります。以下のように表示されます。


Lasso 回帰モデルでは、リッジ回帰と同様に、回帰係数の絶対値をペナルティ項として増加させることでこれを実現します。さらに、L1 正則化は線形回帰モデルの精度を向上させるのに優れたパフォーマンスを発揮します。同時に、L1 正則化はすべてのパラメータに対して同じペナルティを持つため、一部の重みをゼロに減らすことができ、特定の機能を削除できるスパース モデルが生成されます (重み 0 は削除に相当します)。

7. L2正則化

L2 正則化は、損失関数にすべての係数の二乗の合計に等しいペナルティ項を追加することによっても実現されます。以下のように表示されます。

一般的に、データが多重共線性(独立変数の相関が高い)を示す場合に採用される方法と考えられています。多重共線性における最小二乗推定値 (OLS) は偏りがありませんが、分散が大きいと観測値が実際の値から大きく外れる可能性があります。 L2 は回帰推定値の誤差をある程度まで削減します。通常、多重共線性の問題に対処するために収縮パラメータが使用されます。 L2 正則化は重みの固定比率を減らして重みをより滑らかにします。

8. 結論

上記の分析の後、この記事の関連する正規化の知識は次のように要約されます。

L1 正則化は、スパース重み行列、つまり特徴選択に使用できるスパース モデルを生成できます。

L2 正則化はモデルの過剰適合を防ぐことができます。ある程度まで、L1 も過剰適合を防ぎ、モデルの一般化能力を向上させることができます。

L1(ラグランジュ)正則化では、パラメータの事前分布がラプラス分布であると仮定し、モデルのスパース性、つまり一部のパラメータが 0 になることを保証できます。

L2 (リッジ回帰) 正則化では、パラメータの事前分布がガウス分布であると想定し、モデルの安定性、つまりパラメータの値が大きすぎたり小さすぎたりしないことを保証できます。

実際の使用では、特徴が高次元でスパースな場合は L1 正則化が使用され、特徴が低次元で密な場合は L2 正則化が使用されます。

<<:  PubDef: パブリックモデルを使用した転送攻撃の防御

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

AIチップは誤った提案か?

[[333019]]この記事は、劉燕氏が執筆したWeChatパブリックアカウント「AI Front...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...

米メディア:人工知能(AI)は、人間の推論の欠点を伴わずにコンピューティングの利点を実現する

[[334808]]ミラロのコメント – 今日の軍事コンピューティングに関連するものはすべて人工知能...

数学をしっかり学べないMLエンジニアは優れたデータサイエンティストではない

数学はすべての科目の基礎であり、数学の学習には終わりがありません。ビジネスに携わっている場合、または...

...

AIとロボットはどこで使われていますか?お伝えしたいユースケースはたくさんあります

人工知能とロボット工学はテクノロジー分野に大きな変化をもたらしています。 20年前に人々が夢見ていた...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

...

Baidu World 2020 | Baidu CTO 王海鋒が Baidu Brain 6.0 をリリース、AI の新インフラストラクチャが業界インテリジェンスを加速

もし20年前の自分に会って会話ができたら、何を話しますか?想像する必要はありません。まるでSF映画の...

2018 年に最も人気のあるディープラーニング フレームワークはどれでしょうか?この科学的なランキングからわかることは

ディープラーニングは、機械学習の分野で最も注目されているテクノロジーです。ディープラーニング フレー...