データマイニング分野のトップ 10 の古典的なアルゴリズムの 1 つ - CART アルゴリズム (コード付き)

データマイニング分野のトップ 10 の古典的なアルゴリズムの 1 つ - CART アルゴリズム (コード付き)

導入

CART は C4.5 に似ており、決定木アルゴリズムの一種です。さらに、一般的な決定木アルゴリズムである ID3 があります。3 つの違いは、特徴の分割にあります。

  • ID3: 情報ゲインに基づく特徴分割
  • C4.5: 情報利得比に基づく特徴分割
  • CART: ジニ係数に基づく特徴分割

基本的な考え方

CART では、決定木がバイナリ ツリーであり、内部ノード機能の値が「はい」と「いいえ」であり、左のブランチが「はい」の値を持つブランチ、右のブランチが「いいえ」の値を持つブランチであると想定しています。このような決定木は、各特徴を再帰的に 2 つに分割し、入力空間、つまり特徴空間を有限数のユニットに分割し、これらのユニット上の予測確率分布、つまり、与えられた入力条件下での出力の条件付き確率分布を決定することと同等です。

CART アルゴリズムは次の 2 つのステップで構成されます。

  • 決定木の生成: トレーニング データ セットに基づいて決定木を生成します。生成される決定木はできるだけ大きくする必要があります。
  • 決定木の剪定: 検証データセットを使用して、生成されたツリーを剪定し、最適なサブツリーを選択します。このとき、最小損失関数が剪定基準として使用されます。

CART 決定木の生成は、バイナリ決定木を再帰的に構築するプロセスです。 CART 決定木は分類と回帰の両方に使用できます。この記事では、分類のための CART についてのみ説明します。分類ツリーの場合、CART はジニ係数最小化基準を使用して特徴選択を実行し、バイナリ ツリーを生成します。 CART 生成アルゴリズムは次のとおりです。

  • 入力: トレーニングデータセットD、計算停止条件:
  • 出力: CART 決定ツリー。

トレーニング データ セットに従って、ルート ノードから開始して、各ノードに対して次の操作を再帰的に実行し、バイナリ決定木を構築します。

ノードのトレーニングデータセットが D であると仮定し、データセットの既存の特徴のジニ係数を計算します。このとき、各特徴 A について、各可能な値 a について、サンプル ポイントが A=a を「はい」とテストするか「いいえ」とテストするかに応じて、D を D1 と D2 の 2 つの部分に分割し、A=a の場合のジニ係数を計算します。

すべての可能な特徴 A とすべての可能な分割点 a の中で、ジニ係数が最小の特徴とそれに対応する分割点が最適な特徴と最適な分割点として選択されます。最適な特徴と最適な分割ポイントに基づいて、現在のノードから 2 つの子ノードが生成され、特徴に基づいてトレーニング データ セットが 2 つの子ノードに配布されます。

停止条件が満たされるまで、2 つの子ノードに対して手順 1 ~ 2 を再帰的に呼び出します。

CART 決定ツリーを生成します。

アルゴリズムが計算を停止する条件は、ノード内のサンプル数が所定のしきい値未満であるか、サンプル セットのジニ係数が所定のしきい値未満であるか (サンプルは基本的に同じカテゴリに属している)、またはそれ以上の特徴がないこととなります。

コード

コードはgithub(sklearn呼び出し)に実装されており、ここにも投稿されています。

テストデータセットはMNISTデータセットであり、取得アドレスはtrain.csvである。

運用結果

<<:  2030年までに、仕事の70%が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか?

>>:  上位985大学の「人工知能」関連学部・専攻一覧!ぜひ集めてみてください!

ブログ    

推薦する

ハイパーオートメーション: 次世代のサイバーセキュリティソリューション

[[421224]]ハイパーオートメーションがネットワークとデータ セキュリティに与えるプラスの影響...

マーケターがAIと機械学習を活用して顧客にリーチする方法

数十年前、技術者が初めて人工知能の概念を生み出したとき、彼らは人間の知能を模倣できる技術を生み出そう...

人工知能とモノのインターネット: インターネット通信の未来

人工知能 (AI) とモノのインターネット (IoT) の登場により、通信およびインターネット技術業...

北京が初の政策実験区を設置:自動運転は今年中に試験運用へ

車に乗り込み、コードをスキャンすると、運転手が操作しなくても黒い「タクシー」が動き出す。横断歩道では...

人工知能:未来への道を切り開く

[51CTO.com クイック翻訳]デジタル経済が世界を席巻する中、人工知能は今日私たちが知っている...

強化学習はアプリケーションにおける戦略の「最適解」を見つける

現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用され...

韓国中央銀行が警告:AIが国内で400万の雇用を奪う可能性

IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...

スマート製造を活用して持続可能な工場フロアを構築するにはどうすればよいでしょうか?

自動車メーカーは、施設を近代化し、事業運営をより持続可能にするために、スマート製造戦略を採用していま...

自動運転における車線逸脱警報システムの技術サポート

無人運転技術にはまだ改善の余地があるものの、ますます成熟しつつあることは認めざるを得ません。車線逸脱...

...

モバイルインターネット開発における人工知能技術の応用

[[189519]]インテリジェントな需要は2つの側面に反映されるモバイル インターネットの発展が新...

PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

そうです、グラフィックカードを作っている会社、NVIDIA です。 NV はグラフィック カード メ...

Spark機械学習APIの選び方

この記事では、主に統計アルゴリズム、分類アルゴリズム、クラスタリング アルゴリズム、協調フィルタリン...

...

AI医用画像の春が再び到来?

概要: AI医用画像診断市場は急速な成長期を迎えつつあり、医師の負担を軽減しながら医療の質の向上も期...