データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

古典的なデータマイニングアルゴリズムのトップ 10 は次のとおりです。

導入

C4.5 は決定木アルゴリズムの一種です。分類アルゴリズムとしての決定木アルゴリズムの目的は、p 次元の特徴を持つ n 個のサンプルを c 個のカテゴリに分類することです。一般的な決定木アルゴリズムには、ID3、C4.5、CART などがあります。

基本的な考え方

次の例では、C4.5 の基本的な考え方を詳しく説明します。

上記のデータセットには、属性セット A = {天気、気温、湿度、風速} の 4 つの属性と、カテゴリ セット L = {出発、キャンセル} の 2 つのカテゴリ ラベルがあります。

1. カテゴリ情報エントロピーを計算する

カテゴリ情報エントロピーは、すべてのサンプル内のさまざまなカテゴリの不確実性の合計を表します。エントロピーの概念によれば、エントロピーが大きいほど不確実性が増し、物事を明確にするために必要な情報が多くなります。

2.各属性の情報エントロピーを計算する

各属性の情報エントロピーは条件付きエントロピーと同等です。これは、特定の属性におけるさまざまなカテゴリの不確実性の合計を表します。属性の情報エントロピーが大きいほど、この属性のサンプル カテゴリの「純粋さ」は低くなります。

3. 情報ゲインを計算する

情報ゲイン = エントロピー - 条件付きエントロピー、つまりカテゴリ情報エントロピー - 属性情報エントロピー、つまり情報の不確実性の低減度合いを示します。属性の情報ゲインが大きい場合、サンプル分割にこの属性を使用すると、分割されたサンプルの不確実性をより適切に削減できることを意味します。もちろん、この属性を選択すると、分類の目標をより迅速かつ適切に達成できます。

情報ゲインは、ID3 アルゴリズムの特徴選択指標です。

ただし、各属性の各カテゴリにはサンプルが 1 つしかないと仮定すると、属性情報エントロピーはゼロになり、情報ゲインに基づいて効果的な分類機能を選択することは不可能になります。したがって、C4.5 は情報ゲイン率を使用して ID3 を改善することを選択します。

4. 属性分割情報メジャーを計算する

分割情報メトリックは、特定の属性が分割されるときに、ブランチの数とサイズ情報を考慮するために使用されます。この情報を属性の固有情報と呼びます。情報ゲイン比率は、情報ゲイン/固有情報を使用しており、固有情報が増えるほど属性の重要性が低下します(つまり、この属性自体の不確実性が非常に大きい場合は、それを選択する傾向が低くなります)。これは、情報ゲインを単純に使用することに対する補償と見なすことができます。

5. 情報利得率を計算する

(以下は誤りです。IGR = Gain / H のはずです)

天気は情報取得率が最も高いため、分割属性として選択されます。分割後、天気が「曇り」のときにカテゴリが「純粋」であることがわかったので、それをリーフ ノードとして定義し、「純粋」でないノードを選択して分割を続行しました。

子ノードでプロセス 1 から 5 を繰り返します。

この時点で、このデータセットに対する C4.5 の計算プロセスが完了し、ツリーが構築されます。

アルゴリズムのフローは次のように要約されます。

長所と短所

アドバンテージ

生成された分類ルールは理解しやすく、精度も高いです。

欠点

ツリーを構築するプロセスでは、データセットを複数回スキャンして順番にソートする必要があり、アルゴリズムの非効率性につながります。

コード

コードはgithubに実装されており、ここにも投稿されています。

テストデータセットはMNISTデータセットであり、取得アドレスはtrain.csvである。

運用結果

<<:  中国初の人工知能教科書が注目を集める:人材育成が鍵

>>:  軍事用AIは普及するだろうか?公共の安全を重視すべきか、住民のプライバシーを重視すべきか?

ブログ    
ブログ    

推薦する

知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

日常生活では、情報を提示する次の 2 つの方法によく遭遇します。表示される情報量はどちらも同じですが...

北京、上海、深セン、杭州、中国の人工知能産業のリーダーは誰でしょうか?

人工知能企業は主に北京、上海、深セン、杭州に分布している中国新世代人工知能開発研究所のデータによると...

ボストンダイナミクスの犬は48万8000元。美しい女性がビーチで犬を散歩させている。ネットユーザーから「金持ち」と呼ばれる

太陽の光、美しさ、ビーチ、他に何が思い浮かびますか?写真にボストンのロボット犬がいると言ったら、想像...

...

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC など...

オープンソース! Gartner の 100 ページの機械学習ブックが無料でダウンロードできるようになりました。

今日の大企業は、産業化以来最大の変革を経験しています。人工知能は、産業や私たちの働き方、考え方、交流...

ユーザーの旅行需要予測

1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...

3つの大きなトレンドが浮上、我が国のドローン産業の発展の概要

我が国の戦略的新興産業の一つとして、ドローンの研究開発、製造、応用は現在、我が国で大きな注目を集めて...

医療用人工知能の分野は新たな状況を迎え、テクノロジー大手は積極的に導入を進めている。

報告書によると、医療における人工知能の主な応用分野の一つである医療ロボットの市場規模は2019年に4...

国内生産のテスラは、自動運転アルゴリズムとチップを除いてすべて中国製です

みんなで思い出すと「サプライチェーン」が浮かび上がる最近、テスラは中国で国産テスラ車の一部をリコール...

Excelを使用してPIDアルゴリズムを学習する

1. PIDの紹介モーター制御この方法ではフィードバックはありません。つまり、入力数値を完全に信じて...

Salesforce が AI 人材を見つけ、スキルを向上させる方法

[[415289]] AI、機械学習、データサイエンスに関連するスキルの需要は依然として高く、企業は...

IDCの予測: 今年のAI市場規模は1565億ドルに達し、前年比12.3%増となる

市場調査会社IDCは、2020年の世界の人工知能市場の規模は2019年に比べて12.3%増加すると予...

人工知能がいかに「知的」であっても、それは人類の奇跡である

テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...

機械学習翻訳の限界を説明する

機械学習による翻訳は人間のコミュニケーションに非常に有益ですが、限界もあります。機械学習は、企業に文...