ああはは、それだ！人気の機械学習アルゴリズムの 4 つの「なるほど！」という瞬間

ほとんどの人は 2 つのグループに分かれます。

これらの機械学習アルゴリズムが理解できません。
アルゴリズムの仕組みは理解していますが、それがどのように機能するかはわかりません。

この記事では、アルゴリズムの仕組みを説明するだけでなく、アルゴリズムの仕組みを直感的に理解して「なるほど！」という瞬間を提供することを目指しています。

[[348334]]

決定木

決定木は、水平線と垂直線を使用して特徴空間を分割します。たとえば、次の非常に単純な決定木を考えてみましょう。この決定木には、条件ノードが 1 つと、条件と、その条件を満たすトレーニングポイントがどのクラスに属するかを示すクラスノードが 2 つあります。

各色のラベルが付けられたフィールドと、その領域内で実際にその色であるデータポイント、つまり (おおよそ) エントロピーとの間には多くの重複があることに注意してください。エントロピーを最小化するための決定木を構築します。この場合、複雑さのレイヤーを追加できます。別の条件を追加すると、x が 6 未満で y が 6 より大きい場合、その領域内の点を赤で指定できます。このアクションによりエントロピーが減少します。

各ステップで、決定木アルゴリズムはエントロピーが最小になるようにツリーを構築する方法を見つけようとします。エントロピーをより正式には、特定のセパレーター (状態) が持つ「カオス」または「無秩序」、およびセパレーターがモデルに追加する情報と洞察の量である「情報ゲイン」の反対として考えます。情報ゲインが最も高く (エントロピーが最も低く) なる特徴分割が上部に表示されます。

この条件は、その 1 次元特性を次の形式に分解できます。

条件 1 では明確な分離があるため、エントロピーは低く、情報ゲインは高いことに注意してください。条件 3 については同じことは言えないため、条件 3 は決定木の下部近くに配置されています。この木の構造により、木が可能な限り軽量に保たれます。

エントロピーと、決定木やニューラルネットワーク (損失関数としてのクロスエントロピー) におけるその使用法の詳細については、こちらをご覧ください。

ランダムフォレスト

ランダムフォレストは、決定木のバッグ化 (ブートストラップ) バージョンです。主なアイデアは、データのサブセットごとに複数の決定木をトレーニングすることです。次に、入力は各モデルに渡され、その出力は平均のような関数を通じて集約され、最終的な出力が生成されます。バギングは組み合わせ学習の一種です。

次のレストランを決める必要があります。誰かにレストランを勧めるには、どのレストランに行くべきかを相手が決められるように、さまざまな「はい/いいえ」の質問に答える必要があります。

1 人の友人にだけ尋ねて、または複数の友人に尋ねて、方法や一般的な合意を見つけますか?

友達が一人しかいない限り、ほとんどの人は2番目の答えをするでしょう。この類推によって得られる洞察は、それぞれの木は異なるデータでトレーニングされ、したがって異なる「経験」を持っているため、一定の「思考の多様性」を持っているということです。

この例えは、簡潔でシンプルですが、私にとってはまったく目立たないものでした。現実世界では、1 人の友人のオプションはすべての友人よりも経験が少なくなりますが、機械学習では、決定木モデルとランダムフォレストモデルは同じデータでトレーニングされるため、同じ経験を持ちます。アンサンブルモデルは実際には新しい情報を受け取りません。もし、すべてを知っている友人にアドバイスできるなら、私は反対しないだろう。

人工的な「多様性」をシミュレートするためにデータのサブセットをランダムにサンプリングする同じデータでトレーニングされたモデルは、データ全体でトレーニングされたモデルよりもパフォーマンスが優れているのはなぜですか?

正規分布したノイズを多く含む正弦波を取ります。これは単一の決定木分類器であり、当然ながら高分散モデルです。

100 個の「近似値」が選択されます。これらの近似器は、データのサブセットで決定木をトレーニングするのと同じように、正弦波に沿ってランダムにポイントを選択し、正弦波の近似を生成します。これらの適合値は平均化されて、バッグされた曲線が形成されました。結果は？ - より滑らかな曲線。

バギングが機能する理由は、モデルの分散を減らし、モデルを人工的に「信頼できる」ものにすることで一般化を向上させるためです。これが、ロジスティック回帰のような低分散モデルではバギングがうまく機能しない理由です。

この直感についての詳細は、こちらで読むことができます。また、バギングの成功に関するより厳密な証明については、こちらで読むことができます。

サポートベクターマシン

サポートベクターマシンは、「サポートベクター」の概念を利用して 2 つのクラス間の距離を最大化し、データを最適に分割できる超平面を見つけようとします。

残念ながら、ほとんどのデータセットはそれほど簡単に分離できるものではなく、分離できる場合でも、SVM はそれを処理するための最適なアルゴリズムではない可能性があります。この 1 次元の分離タスクについて考えてみましょう。分離を行うと、2 つの別々のクラスが同じクラスとしてグループ化されるため、適切な分離器は存在しません。

> 分割の提案が1つあります。

SVM は、いわゆる「カーネルトリック」を使用してデータを新しい次元に投影し、分離タスクを簡素化することで、このような問題を解決するのに強力です。たとえば、単純に x² (x は元の次元) として定義される新しい次元を作成しましょう。

ここで、データを新しい次元に投影すると（各データポイントは 2 つの次元で (x, x²) として表されます）、データは明確に分離されます。

さまざまなカーネル (最も一般的なものは多項式カーネル、シグモイドカーネル、RBF カーネル) を使用して、カーネルトリックは、分離タスクを容易にする変換された空間を作成するという大変な作業を実行します。

ニューラルネットワーク

ニューラルネットワークは機械学習の頂点です。彼らの発見と、それに基づく無限のバリエーションと改良により、ディープラーニングは独自の分野として定着しました。確かに、ニューラルネットワークの成功はまだ不完全です (「ニューラルネットワークは、誰も理解できない行列の乗算です」) が、それを説明する最も簡単な方法は、普遍近似定理 (UAT) を使用することです。

本質的に、すべての教師ありアルゴリズムは、データの基本的な機能をモデル化しようとします。通常、これは回帰平面または特徴境界です。いくつかの水平ステップで任意の精度にモデル化できる関数 y = x² を考えてみましょう。

これが本質的にニューラルネットワークが実行できることです。水平ステップサイズを除けば、モデルの関係はもう少し複雑になる可能性があります (以下の 2 次曲線や線形線など) が、ニューラルネットワークの本質は区分関数近似値です。

各ノードはセグメンテーション機能の一部に委任されており、ネットワークは特徴空間の一部を担当する特定のニューロンをアクティブにすることを目的としています。たとえば、ひげのある男性の画像とひげのない男性の画像を分類する場合は、ひげが頻繁に現れるピクセル位置にいくつかのノードを割り当てる必要があります。これらのノードは、多次元空間内の特定の場所にある値の範囲を表します。

「ニューラルネットワークはなぜ機能するのか」という疑問は未だに答えが出ていないことに再度注意してください。 UAT はこの質問には答えませんが、ニューラルネットワークは、人間による解釈があれば、あらゆる機能をモデル化できると指摘しています。活性化最大化や感度分析などの方法を通じてこれらの質問に答えるために、説明可能/解釈可能な AI の分野が登場しています。

より詳しい説明と普遍近似定理の視覚化については、こちらをご覧ください。

これら 4 つのアルゴリズムすべて、および他の多くのアルゴリズムでは、低次元では非常に単純に見えます。機械学習の重要な認識は、AI に見られると主張する「魔法」や「知性」の多くは、実際には高次元の仮面の下に隠れている単純なアルゴリズムであるということです。

領域を正方形に分割する決定木は簡単ですが、高次元空間をハイパーキューブに分割する決定木はそれほど簡単ではありません。 SVM がカーネルトリックを実行して 1 次元から 2 次元への分離性を向上させることは理解できますが、SVM が何百もの大規模な次元データセットに対して同じことを実行するのは、ほとんど魔法のようです。

機械学習に対する私たちの賞賛と混乱は、高次元空間に対する理解の欠如に基づいています。高次元の問題を解決する方法を学び、ネイティブ空間でアルゴリズムを理解することは、直感的な理解に役立ちます。

<<: アルゴリズム図: 2 つのスタックを持つキューを実装するにはどうすればよいでしょうか?

>>: 顔認識はより便利で安全になるべきだ