機械学習: 決定木について

機械学習: 決定木について

ロジスティック回帰の基本原理と勾配降下法の導出プロセスについて説明しました。このコードは、分類アルゴリズムであるロジスティック回帰の勾配降下法アルゴリズムを実装しています。今日は、分類アルゴリズムへの旅を続けます。これは効率的で簡潔な分類アルゴリズムです。これに基づいた統合アルゴリズムがあります。これは視覚化効果に優れたアルゴリズムです。このアルゴリズムは決定木です。

[[210752]]

1 例

バナナ、リンゴ、アプリコットなど、たくさんの果物があります。次に、それらを分類する必要があります。選択できる特徴は、形とサイズの 2 つです。形は丸い場合も不規則な場合もあり、サイズは比較的大きい場合も比較的小さい場合もあります。これを分類するには、次のようにします。

まず、特徴に基づきます。形状が丸くない場合はバナナであり、これが葉ノードです。

円であれば、

さらに、サイズの特徴に基づいて判断します。比較的大きい場合はリンゴ、そうでない場合はアプリコットです。これまでに 2 つの葉ノードを取得しており、この分類位置で 3 種類の果物を分割する正しい方法を取得しました。

プロセスはこれでおわかりいただけたと思います。これは決定の分類であり、ツリーを構築するプロセスです。ツリーと呼ぶのは少々大袈裟に聞こえます。よく考えてみると、これは単にネストされた一連の if と else です。ツリーと呼ぶのは、単に論理的な類似性があるだけです。

先ほど示した例では、形状とサイズの 2 つの機能があり、最初の機能の形状が最初の分割ポイントとして選択され、サイズが 2 番目の分割ポイントとして選択されています。では、2 番目の機能を最初の分割ポイントとして選択することはできないのでしょうか。この選択のための式はありますか。

2. 分割ポイントの選択基準

前の例では、果物は3種類あります。今、赤ちゃんがアプリコットをすべて食べてしまい、残っている果物はバナナとリンゴの2種類だけになったとします。このとき、それらを分類する必要があります。このとき、賢いあなたは間違いなく、形という特徴に従ってそれらを分類するでしょう。なぜなら、これにより、それらをすぐに分離できるからです。このとき、このタイプのセットの純度はより高く、形の特徴の点で前の3種類の果物とは異なります。

純度の概念は分かりやすいです。種類が少ないほど純度が高くなります。当然、2種類のほうが純度が高くなります。 このとき、それとは反対だが理解しにくい概念「エントロピー」を提唱した人がいました。これらは敵です。エントロピーが大きいほど純度は低くなり、エントロピーが小さいほど純度は高くなります。

これは概念なので、式を使用してエントロピーを定量化する方法について説明します。

ここで、i はリンゴ、バナナ、アプリコットに等しく、P(i) はセット内で特定の果物が出現する確率です。

セットをより適切に分類したい場合、どうすればよいか想像してみてください。特徴の選択を優先して、その特徴で分類すると、エントロピーが最大限に削減され、分類の純度が向上します。極端なケースでは、セットに 100 個の要素があります (セットには 2 種類の果物しかありません)。特定の最適な特徴に従って、それらは直接 2 つのカテゴリに分類され、1 つはリンゴ、もう 1 つはアプリコットになります。このように、エントロピーは直接 0 になります。

この特性はいわゆる情報ゲインです。エントロピーが減少するほど、情報ゲインは大きくなります。多くの場合、上記の極端な状況は発生しません。記事の冒頭の例のように、形状による分割後、エントロピーは小さくなりますが、0 にはなりません。たとえば、3 種類の果物のエントロピーは、最初は 0.69 でした。形状による分割後、エントロピーは 0.4 になり、情報ゲインは 0.69-0.4=0.29 になります。サイズで分割したときに情報ゲインが 0.1 の場合、最初の分割機能である形状に戻ることができます。

このアプローチに問題はありますか?

3 情報ゲインが大きいほど、分類効果は高くなりますか?

これは、情報ゲインのみに基づいて分割された特徴点を選択する際のバグです。以下の例を参照してください。

特徴が果物の一意の識別属性(番号)である場合、この機能を選択すると、合計 100 個のリーフ ノードが取得されます(この山には 100 個の果物があると仮定)。各リーフ ノードには 1 つのサンプルのみが含まれ、この時点での最大情報ゲインは 0.69 – 0 = 0.69 です。

しかし、これは適切な分類でしょうか? 各サンプルは別々の葉節です。果実 101 番が来たとき、どの葉節に分類すべきか、どのカテゴリに属する​​かはわかりません。

したがって、この問題は、この状況の存在を排除するために何らかの変数で分割する必要があると思われます。

これは情報ゲイン率です。特定の分割ポイントを選択した後に得られる情報ゲインを考慮するだけでなく、分割ノードのエントロピー値で割ります。これはどういう意味ですか? 100 個のノードを分割したのではありませんか? では、これらのノード自体の合計エントロピーはいくらですか?

上記の数値で割ると、情報利得率はそれほど大きくならないことがよくあります。これは、ID3 から C4.5 への伝説的な改良です。

4 ジニ係数、エントロピーの概念に似ている

ジニ係数とエントロピーは似た概念ですが、定量的な計算式は異なるということだけ知っていれば十分です。つまり、理解したということです。計算式がどのようなものかは、使用時に調べればよいのです。

遠くの海や海沿いの美しい景色を眺めながら、リラックスしましょう!

5 展望

上記では、決定木の概念と分割ポイントを選択する基本的な方法について説明しました。明日は、sklearn ライブラリの API を使用して、決定木の構築プロセスを視覚化し、決定木の最も重要な部分である剪定戦略を分析する予定です。

<<:  人工知能はデータセンター管理における破壊的技術となる

>>:  ディープラーニングのためのヘテロジニアス アクセラレーション テクノロジー (パート 2): カタツムリの殻の中に道場を構築する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIと宇宙技術が日常生活をどう改善するか

衛星から都市計画まで、人工知能の進歩は新たな洞察をもたらしています。 [[270081]]宇宙技術と...

...

...

自動運転車が保険業界に与える影響

自動運転車の急速な発展は、自動車業界や輸送業界を再定義するだけでなく、保険業界にも混乱をもたらすでし...

Java プログラミング スキル - データ構造とアルゴリズム「バイナリ検索」

[[395207]]必要順序付けられた配列 {1,8,10,89,1000,1234} に対してバ...

...

「象の鼻」ロボットが登場!ボトルキャップを開けたり、家事も問題なく行えます。

ロボットに対する従来の印象は、四角くて冷たい機械、または人間に似た機械ですが、柔らかいロボット、特に...

...

JD Cityが新しいブランドアイデンティティを発表、スマートシティがJDグループの主要戦略に

3月21日、北京でiCityスマートシティカンファレンスが開催され、JD CityがJDグループの第...

Facebookの詐欺行為と戦う方法を学び、CopyCatchアルゴリズムがLockstepをどのように解決するかを見てみましょう

[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...

NetEase Games AIOps実践:異常検知の最適化戦略とプラットフォーム構築

この共有では主に以下の点が紹介されます。 AIOps ロードマップ異常検出プラットフォーム構築インテ...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ...

人工知能はどのようにして新しい世界を創造するのでしょうか?

AI は時間の経過とともにさらに賢くなり、パワーを増していきます。私たちの多くにとって、人工知能 ...