ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。

  • これらの機械学習アルゴリズムが理解できません。
  • アルゴリズムの仕組みは理解していますが、それがどのように機能するかはわかりません。

この記事では、アルゴリズムの仕組みを説明するだけでなく、アルゴリズムの仕組みを直感的に理解して「なるほど!」という瞬間を提供することを目指しています。

[[348334]]

決定木

決定木は、水平線と垂直線を使用して特徴空間を分割します。 たとえば、次の非常に単純な決定木を考えてみましょう。この決定木には、条件ノードが 1 つと、条件と、その条件を満たすトレーニング ポイントがどのクラスに属するかを示すクラス ノードが 2 つあります。


各色のラベルが付けられたフィールドと、その領域内で実際にその色であるデータ ポイント、つまり (おおよそ) エントロピーとの間には多くの重複があることに注意してください。 エントロピーを最小化するための決定木を構築します。 この場合、複雑さのレイヤーを追加できます。 別の条件を追加すると、x が 6 未満で y が 6 より大きい場合、その領域内の点を赤で指定できます。 このアクションによりエントロピーが減少します。


各ステップで、決定木アルゴリズムはエントロピーが最小になるようにツリーを構築する方法を見つけようとします。 エントロピーをより正式には、特定のセパレーター (状態) が持つ「カオス」または「無秩序」、およびセパレーターがモデルに追加する情報と洞察の量である「情報ゲイン」の反対として考えます。 情報ゲインが最も高く (エントロピーが最も低く) なる特徴分割が上部に表示されます。


この条件は、その 1 次元特性を次の形式に分解できます。


条件 1 では明確な分離があるため、エントロピーは低く、情報ゲインは高いことに注意してください。 条件 3 については同じことは言えないため、条件 3 は決定木の下部近くに配置されています。 この木の構造により、木が可能な限り軽量に保たれます。

エントロピーと、決定木やニューラル ネットワーク (損失関数としてのクロス エントロピー) におけるその使用法の詳細については、こちらをご覧ください。

ランダムフォレスト

ランダム フォレストは、決定木のバッグ化 (ブートストラップ) バージョンです。 主なアイデアは、データのサブセットごとに複数の決定木をトレーニングすることです。 次に、入力は各モデルに渡され、その出力は平均のような関数を通じて集約され、最終的な出力が生成されます。 バギングは組み合わせ学習の一種です。


次のレストランを決める必要があります。 誰かにレストランを勧めるには、どのレストランに行くべきかを相手が決められるように、さまざまな「はい/いいえ」の質問に答える必要があります。

1 人の友人にだけ尋ねて、または複数の友人に尋ねて、方法や一般的な合意を見つけますか?

友達が一人しかいない限り、ほとんどの人は2番目の答えをするでしょう。 この類推によって得られる洞察は、それぞれの木は異なるデータでトレーニングされ、したがって異なる「経験」を持っているため、一定の「思考の多様性」を持っているということです。

この例えは、簡潔でシンプルですが、私にとってはまったく目立たないものでした。 現実世界では、1 人の友人のオプションはすべての友人よりも経験が少なくなりますが、機械学習では、決定木モデルとランダム フォレスト モデルは同じデータでトレーニングされるため、同じ経験を持ちます。 アンサンブル モデルは実際には新しい情報を受け取りません。 もし、すべてを知っている友人にアドバイスできるなら、私は反対しないだろう。

人工的な「多様性」をシミュレートするためにデータのサブセットをランダムにサンプリングする同じデータでトレーニングされたモデルは、データ全体でトレーニングされたモデルよりもパフォーマンスが優れているのはなぜですか?

正規分布したノイズを多く含む正弦波を取ります。 これは単一の決定木分類器であり、当然ながら高分散モデルです。

100 個の「近似値」が選択されます。 これらの近似器は、データのサブセットで決定木をトレーニングするのと同じように、正弦波に沿ってランダムにポイントを選択し、正弦波の近似を生成します。 これらの適合値は平均化されて、バッグされた曲線が形成されました。 結果は? - より滑らかな曲線。


バギングが機能する理由は、モデルの分散を減らし、モデルを人工的に「信頼できる」ものにすることで一般化を向上させるためです。 これが、ロジスティック回帰のような低分散モデルではバギングがうまく機能しない理由です。

この直感についての詳細は、こちらで読むことができます。また、バギングの成功に関するより厳密な証明については、こちらで読むことができます。

サポートベクターマシン

サポート ベクター マシンは、「サポート ベクター」の概念を利用して 2 つのクラス間の距離を最大化し、データを最適に分割できる超平面を見つけようとします。

残念ながら、ほとんどのデータセットはそれほど簡単に分離できるものではなく、分離できる場合でも、SVM はそれを処理するための最適なアルゴリズムではない可能性があります。 この 1 次元の分離タスクについて考えてみましょう。分離を行うと、2 つの別々のクラスが同じクラスとしてグループ化されるため、適切な分離器は存在しません。

> 分割の提案が1つあります。

SVM は、いわゆる「カーネル トリック」を使用してデータを新しい次元に投影し、分離タスクを簡素化することで、このような問題を解決するのに強力です。 たとえば、単純に x² (x は元の次元) として定義される新しい次元を作成しましょう。


ここで、データを新しい次元に投影すると(各データ ポイントは 2 つの次元で (x, x²) として表されます)、データは明確に分離されます。

さまざまなカーネル (最も一般的なものは多項式カーネル、シグモイド カーネル、RBF カーネル) を使用して、カーネル トリックは、分離タスクを容易にする変換された空間を作成するという大変な作業を実行します。

ニューラルネットワーク

ニューラルネットワークは機械学習の頂点です。 彼らの発見と、それに基づく無限のバリエーションと改良により、ディープラーニングは独自の分野として定着しました。 確かに、ニューラル ネットワークの成功はまだ不完全です (「ニューラル ネットワークは、誰も理解できない行列の乗算です」) が、それを説明する最も簡単な方法は、普遍近似定理 (UAT) を使用することです。

本質的に、すべての教師ありアルゴリズムは、データの基本的な機能をモデル化しようとします。 通常、これは回帰平面または特徴境界です。 いくつかの水平ステップで任意の精度にモデル化できる関数 y = x² を考えてみましょう。


これが本質的にニューラル ネットワークが実行できることです。 水平ステップ サイズを除けば、モデルの関係はもう少し複雑になる可能性があります (以下の 2 次曲線や線形線など) が、ニューラル ネットワークの本質は区分関数近似値です。


各ノードはセグメンテーション機能の一部に委任されており、ネットワークは特徴空間の一部を担当する特定のニューロンをアクティブにすることを目的としています。 たとえば、ひげのある男性の画像とひげのない男性の画像を分類する場合は、ひげが頻繁に現れるピクセル位置にいくつかのノードを割り当てる必要があります。 これらのノードは、多次元空間内の特定の場所にある値の範囲を表します。

「ニューラル ネットワークはなぜ機能するのか」という疑問は未だに答えが出ていないことに再度注意してください。 UAT はこの質問には答えませんが、ニューラル ネットワークは、人間による解釈があれば、あらゆる機能をモデル化できると指摘しています。 活性化最大化や感度分析などの方法を通じてこれらの質問に答えるために、説明可能/解釈可能な AI の分野が登場しています。

より詳しい説明と普遍近似定理の視覚化については、こちらをご覧ください。

これら 4 つのアルゴリズムすべて、および他の多くのアルゴリズムでは、低次元では非常に単純に見えます。 機械学習の重要な認識は、AI に見られると主張する「魔法」や「知性」の多くは、実際には高次元の仮面の下に隠れている単純なアルゴリズムであるということです。

領域を正方形に分割する決定木は簡単ですが、高次元空間をハイパーキューブに分割する決定木はそれほど簡単ではありません。 SVM がカーネル トリックを実行して 1 次元から 2 次元への分離性を向上させることは理解できますが、SVM が何百もの大規模な次元データセットに対して同じことを実行するのは、ほとんど魔法のようです。

機械学習に対する私たちの賞賛と混乱は、高次元空間に対する理解の欠如に基づいています。 高次元の問題を解決する方法を学び、ネイティブ空間でアルゴリズムを理解することは、直感的な理解に役立ちます。

<<:  アルゴリズム図: 2 つのスタックを持つキューを実装するにはどうすればよいでしょうか?

>>:  顔認識はより便利で安全になるべきだ

ブログ    
ブログ    
ブログ    

推薦する

...

建物をスマートかつ持続可能なものに変える重要性

[[428632]]温室効果ガス削減目標と規制要件を満たすには、企業は施設をエネルギー効率の高いスマ...

12 のモダリティ、1 つの学習フレームワーク、Meta-Transformer がバックボーン ネットワークの統合を実現

汎用人工知能 (AGI) に向けた多くの方向性の中で、マルチモーダル大規模モデル (MLLM) の開...

コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

[[242009]]この記事の著者は、Microsoft Internet Engineering...

生成AIは高価すぎるため、マイクロソフトやグーグルのような大手テクノロジー企業でさえも導入できない

テクノロジー企業は、AI がビジネスメモを書いたり、コンピューターコードを作成したりできると宣伝して...

医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

社会の継続的な発展に伴い、わが国の医療・ヘルスケア産業は徐々に変化を迎え、医療機器のインテリジェント...

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...

4K 品質の 3D 合成ビデオはもはやスライドショーにならず、新しい方法でレンダリング速度が 30 倍以上向上

4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI ...

Go 言語アルゴリズムの美しさ - 基本的なソート

[[404642]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

...

Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ...

農業用ドローンは熱を帯び続け、今後の開発に向けた3つの大きなトレンドが浮上

農業は国民の衣食住の問題を解決する鍵であり、国民経済の発展を促進する重要な基盤でもあります。我が国は...

GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。最近、アメリカの有名なハッカーで...