操作方法を知るだけでは十分ではありません!最も人気のある4つの機械学習アルゴリズムについて詳しく学ぶ

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

機械学習は多くの分野でホットなキーワードとなっています。しかし実際には、機械学習を本当に理解している人はまだ少数です。ほとんどの人は次の 2 つの陣営に属します。

機械学習アルゴリズムを理解していない;
アルゴリズムがどのように機能するかは分かっているが、なぜ機能するかは分かっていない。

したがって、この記事では、アルゴリズムのワークフローと内容を説明し、その動作原理を直感的に説明して、読者が突然理解を深められることを願っています。

[[342820]]

決定木

決定木は、水平線と垂直線を使用して特徴空間を分割します。次の図は、条件ノード 1 つとクラスノード 2 つを持つ単純な決定木です。クラスノードは条件を表し、条件を満たすノードがどのカテゴリに属するかを決定します。

異なる色でマークされたフィールドと、実際にその色またはエントロピーであるその領域内のデータポイントとの間には多くの重複があることに注目してください。エントロピーを最小限に抑えるような方法で決定木を構築するには、複雑さの層をさらに追加することができます。別の条件 (x<6, y>6) を追加すると、対応する領域内のポイントを赤でマークできます。この動きによりエントロピーが減少します。

アルゴリズムは各ステップで、エントロピーが最小になるようにツリーを構築する方法を見つけようとします。エントロピーの量は「無秩序」、「混沌」と考えてください。その反対は「情報ゲイン」です。情報ゲインが最も高い（エントロピーが最も低い）分割が最上位にあるため、スプリッターがモデルに追加する情報と洞察の量です。

これらの条件の 1 次元的な特徴は、次のように分類できます。

条件 1 では明確な分離があるため、エントロピーは低く、情報ゲインは高いことに注意してください。条件 3 は異なるため、決定ツリーの一番下に配置されます。決定木の構築により、軽量であることが保証されます。

ランダムフォレストモデル

ランダムフォレストモデルは、決定木のバッグバージョン (ブートストラップ集約) です。これは主に、各決定木がデータのサブセットでトレーニングされ、入力が各モデル間で渡され、その出力が平均などの関数を介して最終出力に渡されることを意味します。バギングは統合学習の一形態です。

ランダムフォレストの有効性を説明する同様の例はたくさんあります。一般的な例を以下に示します。

次の食事にどのレストランに行くか決めており、他の人からの推薦が必要です。どのレストランに行くべきかを決めるために、「はい」または「いいえ」の質問に答える必要があります。 1 人の友人に尋ねるか、複数の友人に尋ねるかは一般的な見解ですか? 友人が 1 人しかいない限り、ほとんどの人は複数の友人に尋ねることを選択します。このアナロジーは、それぞれの木には「思考の多様性」があり、異なるデータを選択するため、結果も異なることを示しています。

この例えは単純かつ明確でしたが、アンドレ・イエの注意を引くことはありませんでした。現実世界では、1 人の友人の選択肢はすべての友人を合わせたよりも経験が少なくなりますが、機械学習では、決定木とランダムフォレストモデルは同じデータでトレーニングされるため、同じ経験を持ち、アンサンブルモデルは実際には新しい情報を受け取りません。何でも知っている友人に推薦を頼めば、彼は何の異論も持たないでしょう。

人工的な「多様性」をシミュレートするためにランダムに抽出されたデータのサブセットを使用して同じデータでトレーニングされたモデルは、どのようにしてデータ全体でトレーニングされたモデルよりも優れたパフォーマンスを発揮できるのでしょうか。重い正の等分布ノイズを含む正弦波を例にとると、この単一の決定木分類器は当然、非常に分散性の高いモデルになります。

データのサブセットでトレーニングされた決定木と同じように、正弦波上の点をランダムに選択し、正弦波の近似値を生成する 100 個の「近似値」を選択します。これらの適合は平均化されて、より滑らかな曲線であるバッグ曲線を形成します。

バギングが機能するのは、モデルの分散を減らし、モデルの信頼性を人工的に高めて一般化を向上させるためです。そのため、バギングはロジスティック回帰などの分散の低いモデルでは機能しません。

サポートベクターマシン

サポートベクターマシンは、「サポートベクター」の概念を利用して 2 つのクラスを分離し、データを最適に分割する超平面を見つけようとします。

残念ながら、ほとんどのデータセットはそれほど簡単に分離できません。分離が簡単な場合、SVM はデータセットに最適なアルゴリズムではない可能性があります。 1 次元の分離を目標とすると、いかなる分離も 2 つの別々のクラスが同じクラスとしてグループ化されることになるため、完璧な分離は存在しません。

意見が分かれる提案

SVM は、いわゆる「カーネルトリック」を使用してこの種の問題を解決できます。カーネルトリックは、データを新しい次元に投影し、分離タスクを容易にします。たとえば、新しい次元を作成するには、それを x^2 として定義します (x は元の次元です)。

データは新しい次元に投影され、各データポイントは 2 次元で (x, x^) として表されます。データは完全に分離可能です。さまざまなカーネル (最も一般的なのは、多項式カーネル、シグモイドカーネル、RBF カーネル) を使用して、カーネルトリックが変換空間を作成するという大変な作業を実行し、分離タスクを容易にします。

ニューラルネットワーク

ニューラルネットワークは機械学習の頂点です。これらの発見と、それに基づく無限のバリエーションや改良により、この分野はディープラーニングの対象となっています。確かに、ニューラルネットワークはまだ不完全です (「ニューラルネットワークは、誰も理解できない行列乗算です」) が、それを説明する最も簡単な方法は、普遍近似定理 (UAT) です。

本質的に、すべての教師ありアルゴリズムは、データの基本的な特徴、通常は回帰平面または特徴境界をモデル化しようとします。数ステップで任意の精度にモデル化できる関数 y=x2 を考えてみましょう。

これはニューラルネットワークで実行できることです。ニューラルネットワークは、関係をモデル化するために、少し複雑で水平方向のステップ (以下の 2 次曲線や直線など) を超えることもありますが、本質的には区分関数近似器です。

各ノードは区分関数の一部に委任され、ネットワークは特徴空間の一部を担当する特定のニューロンをアクティブにすることを目的としています。たとえば、ひげのある男性の画像とひげのない男性の画像を分類する場合は、ひげがよく見られるピクセル位置にいくつかのノードを割り当てる必要があります。多次元空間のどこかで、これらのノードは値の範囲を表します。

「ニューラルネットワークはなぜ機能するのか」という疑問は未だに答えられておらず、UAT はこの疑問に答えていません。しかし、ニューラルネットワークは、人間の解釈に基づいて任意の機能をモデル化できることを指摘し、活性化最大化や感度分析などの方法を通じてこれらの質問に答えるために、説明可能な人工知能の分野が登場しました。

[[342830]]

画像ソース: unsplash

これら 4 つのアルゴリズムと他の多くのアルゴリズムは、実際には低次元で非常に単純です。これは機械学習の分野における重要なポイントであり、AI に見られると主張する「魔法」や「インテリジェンス」の多くは、実際には高次元の表面の下に隠れている単純なアルゴリズムであるということです。

決定木では領域を正方形に分割するのは簡単ですが、高次元空間をハイパーキューブに分割するのは簡単ではありません。SVM はカーネルトリックを実行することで 1 次元から 2 次元への分離性を向上させますが、数百の次元を持つ大規模なデータセットで同じことを実行するのは SVM にとって非常に困難です。

機械学習に対する私たちの感心と混乱は、高次元空間の理解不足から生じています。高次元空間を回避し、ローカル空間でアルゴリズムを理解する方法を学ぶことは、直感的な理解に非常に役立ちます。

<<: 人工知能技術はゴミリサイクルに革命的な変化をもたらすかもしれない

>>: 人々を幸せにしたり不安にさせたり：注目すべき11の人工知能アプリケーション