機械学習: 決定木について

機械学習: 決定木について

ロジスティック回帰の基本原理と勾配降下法の導出プロセスについて説明しました。このコードは、分類アルゴリズムであるロジスティック回帰の勾配降下法アルゴリズムを実装しています。今日は、分類アルゴリズムへの旅を続けます。これは効率的で簡潔な分類アルゴリズムです。これに基づいた統合アルゴリズムがあります。これは視覚化効果に優れたアルゴリズムです。このアルゴリズムは決定木です。

[[210752]]

1 例

バナナ、リンゴ、アプリコットなど、たくさんの果物があります。次に、それらを分類する必要があります。選択できる特徴は、形とサイズの 2 つです。形は丸い場合も不規則な場合もあり、サイズは比較的大きい場合も比較的小さい場合もあります。これを分類するには、次のようにします。

まず、特徴に基づきます。形状が丸くない場合はバナナであり、これが葉ノードです。

円であれば、

さらに、サイズの特徴に基づいて判断します。比較的大きい場合はリンゴ、そうでない場合はアプリコットです。これまでに 2 つの葉ノードを取得しており、この分類位置で 3 種類の果物を分割する正しい方法を取得しました。

プロセスはこれでおわかりいただけたと思います。これは決定の分類であり、ツリーを構築するプロセスです。ツリーと呼ぶのは少々大袈裟に聞こえます。よく考えてみると、これは単にネストされた一連の if と else です。ツリーと呼ぶのは、単に論理的な類似性があるだけです。

先ほど示した例では、形状とサイズの 2 つの機能があり、最初の機能の形状が最初の分割ポイントとして選択され、サイズが 2 番目の分割ポイントとして選択されています。では、2 番目の機能を最初の分割ポイントとして選択することはできないのでしょうか。この選択のための式はありますか。

2. 分割ポイントの選択基準

前の例では、果物は3種類あります。今、赤ちゃんがアプリコットをすべて食べてしまい、残っている果物はバナナとリンゴの2種類だけになったとします。このとき、それらを分類する必要があります。このとき、賢いあなたは間違いなく、形という特徴に従ってそれらを分類するでしょう。なぜなら、これにより、それらをすぐに分離できるからです。このとき、このタイプのセットの純度はより高く、形の特徴の点で前の3種類の果物とは異なります。

純度の概念は分かりやすいです。種類が少ないほど純度が高くなります。当然、2種類のほうが純度が高くなります。 このとき、それとは反対だが理解しにくい概念「エントロピー」を提唱した人がいました。これらは敵です。エントロピーが大きいほど純度は低くなり、エントロピーが小さいほど純度は高くなります。

これは概念なので、式を使用してエントロピーを定量化する方法について説明します。

ここで、i はリンゴ、バナナ、アプリコットに等しく、P(i) はセット内で特定の果物が出現する確率です。

セットをより適切に分類したい場合、どうすればよいか想像してみてください。特徴の選択を優先して、その特徴で分類すると、エントロピーが最大限に削減され、分類の純度が向上します。極端なケースでは、セットに 100 個の要素があります (セットには 2 種類の果物しかありません)。特定の最適な特徴に従って、それらは直接 2 つのカテゴリに分類され、1 つはリンゴ、もう 1 つはアプリコットになります。このように、エントロピーは直接 0 になります。

この特性はいわゆる情報ゲインです。エントロピーが減少するほど、情報ゲインは大きくなります。多くの場合、上記の極端な状況は発生しません。記事の冒頭の例のように、形状による分割後、エントロピーは小さくなりますが、0 にはなりません。たとえば、3 種類の果物のエントロピーは、最初は 0.69 でした。形状による分割後、エントロピーは 0.4 になり、情報ゲインは 0.69-0.4=0.29 になります。サイズで分割したときに情報ゲインが 0.1 の場合、最初の分割機能である形状に戻ることができます。

このアプローチに問題はありますか?

3 情報ゲインが大きいほど、分類効果は高くなりますか?

これは、情報ゲインのみに基づいて分割された特徴点を選択する際のバグです。以下の例を参照してください。

特徴が果物の一意の識別属性(番号)である場合、この機能を選択すると、合計 100 個のリーフ ノードが取得されます(この山には 100 個の果物があると仮定)。各リーフ ノードには 1 つのサンプルのみが含まれ、この時点での最大情報ゲインは 0.69 – 0 = 0.69 です。

しかし、これは適切な分類でしょうか? 各サンプルは別々の葉節です。果実 101 番が来たとき、どの葉節に分類すべきか、どのカテゴリに属する​​かはわかりません。

したがって、この問題は、この状況の存在を排除するために何らかの変数で分割する必要があると思われます。

これは情報ゲイン率です。特定の分割ポイントを選択した後に得られる情報ゲインを考慮するだけでなく、分割ノードのエントロピー値で割ります。これはどういう意味ですか? 100 個のノードを分割したのではありませんか? では、これらのノード自体の合計エントロピーはいくらですか?

上記の数値で割ると、情報利得率はそれほど大きくならないことがよくあります。これは、ID3 から C4.5 への伝説的な改良です。

4 ジニ係数、エントロピーの概念に似ている

ジニ係数とエントロピーは似た概念ですが、定量的な計算式は異なるということだけ知っていれば十分です。つまり、理解したということです。計算式がどのようなものかは、使用時に調べればよいのです。

遠くの海や海沿いの美しい景色を眺めながら、リラックスしましょう!

5 展望

上記では、決定木の概念と分割ポイントを選択する基本的な方法について説明しました。明日は、sklearn ライブラリの API を使用して、決定木の構築プロセスを視覚化し、決定木の最も重要な部分である剪定戦略を分析する予定です。

<<:  人工知能はデータセンター管理における破壊的技術となる

>>:  ディープラーニングのためのヘテロジニアス アクセラレーション テクノロジー (パート 2): カタツムリの殻の中に道場を構築する

ブログ    
ブログ    
ブログ    

推薦する

...

2019年に人工知能はどこに向かうのでしょうか? 120人の幹部が意見を述べた

私: 「アレクサ、2019年に何が起こるか教えてください。」 Amazon AI: 「『この日の歴史...

...

ARMベースの3DES暗号化アルゴリズムの実装(2)

ARMベースのハードウェア実装3DESアルゴリズムと一般的な組み込みアプリケーションの要件に応じて...

アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない

ウルトラマンのシンプルな言葉はAIスタートアップ企業を震え上がらせた。 「Shelling」Open...

これは本当に天才的ですね!パーセプトロンを組み合わせると、ニューラル ネットワークになるのではないでしょうか。

[[354709]]みなさんこんにちは。今日もディープラーニングについてお話していきましょう。クラ...

一貫性ハッシュアルゴリズムとは何ですか?

この記事はWeChatパブリックアカウント「Compass Krypton Gold Entranc...

中国にはどのような人工知能の人材が必要でしょうか?

[[233697]] 「『AI』が何の略か、誰もが知っているとは思いません。アルゴリズムはあっても...

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...

機械学習とデータサイエンスに関する必読の無料オンライン電子書籍 10 冊

KDnuggets 編集者の Matthew Mayo が、機械学習とデータ サイエンスに関連する書...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...

携帯電話の顔認識は本当に安全ですか?

​​​ [51CTO.com クイック翻訳]顔認識は、セキュリティメカニズムとして、ますます多くの携...

複数人の3D姿勢を正確かつ効率的に推定、Meitu Beihang分散知覚シングルステージモデルがCVPRに採用

最近、トップコンピュータビジョンカンファレンスCVPR 2022がカンファレンスの参加結果を発表し、...

「でたらめ記事ジェネレーター」が GitHub のホットリストのトップに。ワンクリックで 10,000 語の形式主義的な傑作を生成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

従来のセキュリティ手法を覆し、AIがWebセキュリティを再定義

Amazonが2006年にEC2サービスをリリースしてから11年が経ちました。この 11 年間で、A...