機械学習の基本的な概念を説明するとき、私はいつも限られた数の図に戻ってしまいます。以下は、私が最も啓発されたと思ったエントリーのリストです。 テストとトレーニングのエラー トレーニング エラーが低いことが必ずしも良いことではない理由: 上の図は、モデルの複雑さを変数とするテストおよびトレーニング エラー関数を示しています。 過小適合と過剰適合 アンダーフィッティングまたはオーバーフィッティングの例。上の図の多項式曲線にはさまざまな次数 M があり、赤い曲線で表されます。これは、緑の曲線をデータ セットに当てはめることによって生成されます。 オッカムの剃刀 上の図は、ベイズ推論がオッカムの剃刀の原理を具体化できる理由を示しています。この図は、複雑なモデルが低確率のイベントになる理由について、基本的な直感的な説明を提供します。横軸は、可能なデータセット D 空間を表します。ベイズの定理は、モデルがデータを予測する度合いに比例してモデルにフィードバックされます。これらの予測は、データ D 上の正規化された確率分布によって量子化されます。データの確率はモデル Hi を与え、P(D|Hi) は Hi モデルを支持する証拠と呼ばれます。単純なモデル H1 では、P(D|H1) で表される限定的な予測しか行えません。たとえば、より強力なモデル H2 では、モデル H1 よりも多くの自由パラメータがあり、より多様なデータ セットを予測できます。これは、いずれにしても、H2 は C1 ドメインのデータセットに対して H1 ほど強力な予測を行うことができないことも示しています。両方のモデルに等しい事前確率が割り当てられ、データセットが領域 C1 に分類されると仮定すると、効果の低いモデル H1 がより適切なモデルになります。 機能の組み合わせ (1) これが、集合的に相関する特徴が個別に見ると重要でない理由であり、(2) 線形手法が失敗する可能性がある理由でもあります。 Isabelle Guyon の特徴抽出に関するスライドより。 無関係な機能 重要でない特徴が、KNN、クラスタリング、および類似性によってクラスタリングするその他の方法に悪影響を及ぼす理由。左と右の図は、2 種類のデータが垂直軸上で適切に分離されていることを示しています。右の図では、無関係な水平軸が追加されているため、グループ化が崩れ、多くの点が反対のクラスの隣接点になります。 基底関数 非線形基底関数は、低次元の非線形境界分類問題を高次元の線形境界問題に変換する方法です。 Andrew Moore の SVM (サポート ベクター マシン) チュートリアル スライドには、次のように書かれています。入力 x を持つ 1 次元の非線形分類問題は、2 次元の線形に分離可能な z=(x,x^2) 問題に変換されます。 識別的 vs. 生成的 識別学習が生成学習よりも簡単な理由: これら 2 つの方法の分類条件の密度は、単一の入力変数 x (左の図) と、対応する事後確率 (右の図) の例です。左の図の青い線で表されている左側のクラス条件付き密度 p(x|C1) のパターンは事後確率に影響を与えないことに注意してください。右の図の緑の縦線は、誤分類率が最小となる x の決定境界を示しています。 損失関数 学習アルゴリズムは、さまざまな損失関数を最適化するものとして考えることができます。上の図は、サポートベクターマシンに適用された「ヒンジ」エラー関数のグラフ(青い線で表示)と、ロジスティック回帰の場合のエラー関数が 1/ln(2) の係数で再スケーリングされ、ポイント (0, 1) を通過するグラフ(赤い線で表示)を示しています。黒い線は誤分類を表し、平均二乗誤差は緑の線で表されます。 最小二乗幾何学 上の図は、2 つの予測値を持つ最小二乗回帰の N 次元ジオメトリを示しています。結果のベクトル y は、入力ベクトル x1 と x2 によって張られる超平面に直交投影されます。投影 y^ は最小二乗予測のベクトルを表します。 スパース性 Lasso アルゴリズム (L1 正則化またはラプラス事前分布) がスパース解 (つまり、0 が多数含まれる重み付きベクトル) を生成する理由: 上図の Lasso アルゴリズムの推定画像 (左) とリッジ回帰アルゴリズムの推定画像 (右)。誤差等高線と制約関数が表示されます。それぞれ、赤い楕円が最小二乗誤差関数の等高線である場合、青い実線領域は制約領域 |β1| + |β2| ≤ t および β12 + β22 ≤ t2 です。 |
<<: AIのダークサイドを暴く:人工知能は人間に取って代わるが、機械をどのように学習するかは分からない
>>: GitHub で最も人気のあるオープンソース機械学習プロジェクト 28 件: TensorFlow がトップ
毎日肖像画を模写する練習を続けた結果、この芸術家はいくつかの重要な特徴だけを描いた人間の顔を完全に描...
IBM は、NASA の衛星データに基づいて構築された watsonx.ai 地理空間インフラストラ...
人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機...
現在、人工知能は独立に向けて動き始めています。世界中の企業はこの学際的な分野に適応し、ほぼすべてのビ...
近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...
近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...
機械学習、ビッグデータ、自動化は世界の産業システムに革命をもたらしており、エネルギー業界も例外ではあ...
Python はますます人気が高まっています。近年の Python の人気は、人工知能や機械学習と...
最近、世界で最も注目されているイベントはワールドカップです。現在、ロシアでは2018年ワールドカップ...
Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]などの音声事前トレーニングモ...
AIに適切なコンテキストを提供することで、精度が向上し、幻覚が軽減されます。 AI が仕事に革命を...
AI、つまり人工知能は、携帯電話で長い間使用されてきました。たとえば、最も一般的な音声アシスタントは...