機械学習における正則化とは何ですか?

機械学習における正則化とは何ですか?

1. はじめに

機械学習の分野では、トレーニング プロセス中にモデルが過剰適合したり、不足適合になったりすることがあります。これを防ぐために、機械学習で正規化を使用して、モデルをテスト セットに適切に適合させます。一般的に言えば、正規化は過剰適合と不足適合の可能性を減らすことで、最適なモデルを取得するのに役立ちます。

この記事では、正規化とは何か、正規化の種類について説明します。さらに、バイアス、分散、アンダーフィッティング、オーバーフィッティングなどの関連する概念についても説明します。

さっそく始めましょう!

2. バイアスと分散

バイアスと分散は、学習したモデルと実際のモデルの間のギャップをそれぞれ 2 つの側面から説明します。

両者の定義は以下のとおりです。

  • バイアスとは、すべての可能なトレーニング データ セットを使用してトレーニングされたすべてのモデルの平均出力と、実際のモデルの出力値との差です。
  • 分散は、異なるトレーニング データ セットでトレーニングされたモデルの出力値間の差です。

バイアスにより、個々のデータ ポイントに対するモデルの感度が低下し、データの一般化が向上します。モデルは孤立したデータ ポイントに対する感度が低くなり、必要な機能がそれほど複雑でなくなるため、トレーニング時間も短縮されます。偏差が大きいということは、想定される目的関数の信頼性が高いことを示します。場合によっては、モデルの適合不足につながる可能性があります。

分散は、データセット内の小さな変化に対するモデルの感度によって発生する機械学習におけるエラーの一種です。大きな変動があるため、アルゴリズムはトレーニング セット内のノイズと外れ値をモデル化します。これを説明するときに最もよく使われる用語は「過剰適合」です。新しいデータセットで評価すると、モデルは基本的に各データ ポイントを学習しているため、この場合、正確な予測を提供できません。

比較的バランスの取れたモデルはバイアスと分散が低くなりますが、バイアスと分散が高いと、アンダーフィッティングとオーバーフィッティングが発生します。

3. アンダーフィッティング

アンダーフィッティングは、モデルがトレーニング データ内のパターンを正しく学習していないために、新しいデータに正しく一般化できない場合に発生します。トレーニング データでは、適合度の低いモデルのパフォーマンスが低下し、誤った予測が行われます。アンダーフィッティングは、バイアスが高く、分散が低い場合に発生します。


4. 過剰適合

モデルがトレーニング データでは非常に優れたパフォーマンスを発揮するが、テスト データ (新しいデータ) ではパフォーマンスが低い場合、これをオーバーフィッティングと呼びます。この場合、機械学習モデルはトレーニング データ内のノイズに適合され、テスト データに対するモデルのパフォーマンスに悪影響を及ぼします。バイアスが低く分散が大きいと、過剰適合につながる可能性があります。


5. 正規化の概念

「正則化」という用語は、調整された損失関数を減らし、過剰適合や不足適合を回避するために機械学習モデルを調整する方法を表します。


正規化を使用すると、機械学習モデルを特定のテスト セットに正しく適合させ、テスト セット内のエラーを削減できます。

6. L1正規化

リッジ回帰と比較して、L1 正則化は主に損失関数にペナルティ項を追加することによって実現されます。ペナルティ項はすべての係数の絶対値の合計に等しくなります。以下のように表示されます。


Lasso 回帰モデルでは、リッジ回帰と同様に、回帰係数の絶対値をペナルティ項として増加させることでこれを実現します。さらに、L1 正則化は線形回帰モデルの精度を向上させるのに優れたパフォーマンスを発揮します。同時に、L1 正則化はすべてのパラメータに対して同じペナルティを持つため、一部の重みをゼロに減らすことができ、特定の機能を削除できるスパース モデルが生成されます (重み 0 は削除に相当します)。

7. L2正則化

L2 正則化は、損失関数にすべての係数の二乗の合計に等しいペナルティ項を追加することによっても実現されます。以下のように表示されます。

一般的に、データが多重共線性(独立変数の相関が高い)を示す場合に採用される方法と考えられています。多重共線性における最小二乗推定値 (OLS) は偏りがありませんが、分散が大きいと観測値が実際の値から大きく外れる可能性があります。 L2 は回帰推定値の誤差をある程度まで削減します。通常、多重共線性の問題に対処するために収縮パラメータが使用されます。 L2 正則化は重みの固定比率を減らして重みをより滑らかにします。

8. 結論

上記の分析の後、この記事の関連する正規化の知識は次のように要約されます。

L1 正則化は、スパース重み行列、つまり特徴選択に使用できるスパース モデルを生成できます。

L2 正則化はモデルの過剰適合を防ぐことができます。ある程度まで、L1 も過剰適合を防ぎ、モデルの一般化能力を向上させることができます。

L1(ラグランジュ)正則化では、パラメータの事前分布がラプラス分布であると仮定し、モデルのスパース性、つまり一部のパラメータが 0 になることを保証できます。

L2 (リッジ回帰) 正則化では、パラメータの事前分布がガウス分布であると想定し、モデルの安定性、つまりパラメータの値が大きすぎたり小さすぎたりしないことを保証できます。

実際の使用では、特徴が高次元でスパースな場合は L1 正則化が使用され、特徴が低次元で密な場合は L2 正則化が使用されます。

<<:  PubDef: パブリックモデルを使用した転送攻撃の防御

>>: 

ブログ    

推薦する

スマート製造:デジタル世界と物理世界の統合

スマート製造:デジタル世界と物理世界の統合自動車業界と製造業界の状況の変化により、サプライ チェーン...

AI に関する知っておくべき 29 の統計とトレンド

ChatGPTは2022年11月の爆発的なリリースに続いて世界を席巻し、2023年には人工知能(AI...

...

AI技術により人類の寿命が延びる

現在、50歳以上の人口は世界で最も急速に増加している年齢層となっており、当然ながら世界経済と医療制度...

自動運転の国家基準が導入される。2021年はレベル3自動運転車元年となるか?

自動運転は間違いなく自動車の究極の開発トレンドとなるため、多くのメーカーが現在、自動運転車の開発に多...

...

...

アイウェア市場は1000億円規模を超えるか? 3Dプリントで「顔のカスタマイズ」を実現

私たちの日常生活には、近視用メガネ、サングラス、サングラス、遠視用メガネ、ゴーグルなど、視力矯正、視...

...

識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

これまで、視覚システムに関する基本的な研究の多くは、動物に画像を見せ、そのニューロンの反応を測定し、...

アルゴリズム推奨規制が実施されます。ユーザーはプラットフォームに「ノー」と言えるのでしょうか?

わが国のアルゴリズム推奨政策は明確に実施されており、アルゴリズム差別、「ビッグデータによる旧顧客殺し...

人工知能「トレーナー」がAIをより賢くする

「人工知能は子供のようなものです。継続的なトレーニング、調整、育成を通じて、その「IQ」はますます高...

「新世代人工知能倫理規定」が発表:人工知能のライフサイクル全体に統合し、データプライバシーのセキュリティとアルゴリズムの倫理に重点を置く

9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...

パンデミックにより、AI のステータスは「欲しいもの」から「必須のもの」に変化したのでしょうか?

パンデミック以前は、AIの導入は世間の関心を集めていたものの、人々はまだAIの長所と短所、ビジネスへ...

AutoAI: ModelOps と DevOps を同期してデジタル変革を推進

[[418497]]より多くの組織が AI ベースのデジタル変革を進めるにつれて、AI 運用分野でい...