機械学習の基本概念を10枚の画像で説明する

機械学習の基本的な概念を説明するとき、私はいつも限られた数の図に戻ってしまいます。以下は、私が最も啓発されたと思ったエントリーのリストです。

テストとトレーニングのエラー

トレーニングエラーが低いことが必ずしも良いことではない理由: 上の図は、モデルの複雑さを変数とするテストおよびトレーニングエラー関数を示しています。

過小適合と過剰適合

アンダーフィッティングまたはオーバーフィッティングの例。上の図の多項式曲線にはさまざまな次数 M があり、赤い曲線で表されます。これは、緑の曲線をデータセットに当てはめることによって生成されます。

オッカムの剃刀

上の図は、ベイズ推論がオッカムの剃刀の原理を具体化できる理由を示しています。この図は、複雑なモデルが低確率のイベントになる理由について、基本的な直感的な説明を提供します。横軸は、可能なデータセット D 空間を表します。ベイズの定理は、モデルがデータを予測する度合いに比例してモデルにフィードバックされます。これらの予測は、データ D 上の正規化された確率分布によって量子化されます。データの確率はモデル Hi を与え、P(D|Hi) は Hi モデルを支持する証拠と呼ばれます。単純なモデル H1 では、P(D|H1) で表される限定的な予測しか行えません。たとえば、より強力なモデル H2 では、モデル H1 よりも多くの自由パラメータがあり、より多様なデータセットを予測できます。これは、いずれにしても、H2 は C1 ドメインのデータセットに対して H1 ほど強力な予測を行うことができないことも示しています。両方のモデルに等しい事前確率が割り当てられ、データセットが領域 C1 に分類されると仮定すると、効果の低いモデル H1 がより適切なモデルになります。

機能の組み合わせ

(1) これが、集合的に相関する特徴が個別に見ると重要でない理由であり、(2) 線形手法が失敗する可能性がある理由でもあります。 Isabelle Guyon の特徴抽出に関するスライドより。

無関係な機能

重要でない特徴が、KNN、クラスタリング、および類似性によってクラスタリングするその他の方法に悪影響を及ぼす理由。左と右の図は、2 種類のデータが垂直軸上で適切に分離されていることを示しています。右の図では、無関係な水平軸が追加されているため、グループ化が崩れ、多くの点が反対のクラスの隣接点になります。

基底関数

非線形基底関数は、低次元の非線形境界分類問題を高次元の線形境界問題に変換する方法です。 Andrew Moore の SVM (サポートベクターマシン) チュートリアルスライドには、次のように書かれています。入力 x を持つ 1 次元の非線形分類問題は、2 次元の線形に分離可能な z=(x,x^2) 問題に変換されます。

識別的 vs. 生成的

識別学習が生成学習よりも簡単な理由: これら 2 つの方法の分類条件の密度は、単一の入力変数 x (左の図) と、対応する事後確率 (右の図) の例です。左の図の青い線で表されている左側のクラス条件付き密度 p(x|C1) のパターンは事後確率に影響を与えないことに注意してください。右の図の緑の縦線は、誤分類率が最小となる x の決定境界を示しています。

損失関数

学習アルゴリズムは、さまざまな損失関数を最適化するものとして考えることができます。上の図は、サポートベクターマシンに適用された「ヒンジ」エラー関数のグラフ（青い線で表示）と、ロジスティック回帰の場合のエラー関数が 1/ln(2) の係数で再スケーリングされ、ポイント (0, 1) を通過するグラフ（赤い線で表示）を示しています。黒い線は誤分類を表し、平均二乗誤差は緑の線で表されます。

最小二乗幾何学

上の図は、2 つの予測値を持つ最小二乗回帰の N 次元ジオメトリを示しています。結果のベクトル y は、入力ベクトル x1 と x2 によって張られる超平面に直交投影されます。投影 y^ は最小二乗予測のベクトルを表します。

スパース性

Lasso アルゴリズム (L1 正則化またはラプラス事前分布) がスパース解 (つまり、0 が多数含まれる重み付きベクトル) を生成する理由: 上図の Lasso アルゴリズムの推定画像 (左) とリッジ回帰アルゴリズムの推定画像 (右)。誤差等高線と制約関数が表示されます。それぞれ、赤い楕円が最小二乗誤差関数の等高線である場合、青い実線領域は制約領域 |β1| + |β2| ≤ t および β12 + β22 ≤ t2 です。

<<: AIのダークサイドを暴く：人工知能は人間に取って代わるが、機械をどのように学習するかは分からない