この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。 決定木は、機械学習で使用される最も人気があり強力な分類アルゴリズムの 1 つです。名前が示すように、決定木は特定のデータ セットに基づいて決定を下すために使用されます。つまり、適切な特徴を選択して、人間の思考の流れに似たサブパーツにツリーを分割するのに役立ちます。 決定木を効率的に構築するために、エントロピー/情報ゲインとジニ不純度の概念を使用します。ジニ不純度とは何か、そしてそれが決定木の構築にどのように使用できるかを見てみましょう。
ジニ純度とは何ですか? ジニ不純度は、ルート ノードと後続の分割に最適な分割を決定するために決定木アルゴリズムで使用される方法です。これは、決定木を分割する最も一般的かつ最も簡単な方法です。バイナリ分割のみを実行するため、カテゴリ ターゲットにのみ適しています。 ジニ不純度の式は次のとおりです。 ジニ不純度が低いほど、ノードは均質になります。純粋なノード (同じクラス) のジニ不純度は 0 です。ジニ不純度を計算するための例としてデータ セットを取り上げます。 データ セットには、男子 8 名と女子 10 名の計 18 名の生徒が含まれています。パフォーマンスに応じて次のように分類されます。 上記のジニ不純度の計算は次のとおりです。 上記の計算では、分割(ルートノード)の加重ジニ不純度を見つけるために、子ノードの学生の確率を使用しました。 「平均以上」ノードと「平均以下」ノードの場合、各ノードの男子生徒と女子生徒の数はクラスでの成績に応じて異なりますが、2 つの子ノードの生徒数は等しいため、確率は 9/18 のみです。 ジニ不純度を使用して決定木を分割する手順は次のとおりです。
ジニ不純度の要約:
要約すると、ジニ不純度は、より単純であり、計算コストが高く難しい対数を使用しないため、エントロピー/情報ゲインよりも好まれます。 |
>>: 海運業界は人工知能を活用して海賊行為と戦うことができる
今年3月、上海市経済情報化委員会は、同市の人工知能の革新と発展を支援する2018年特別プロジェクトの...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[409365]] Microsoft の初心者向け機械学習カリキュラムが登場し、1 日で 2,...
序文ご存知のとおり、TiDB バージョン 5.1 では多くの新機能が追加されましたが、その 1 つが...
[[349378]]現在、ほとんどの調査会社は、人工知能が近い将来ますます重要な役割を果たすと予測し...
言語モデルを定義するときは通常、基本的な単語分割方法を使用して文を単語、サブワード、または文字に分割...
20 年前、人工知能の研究に興味を持つ人は、主に大学や非営利の AI 研究所に限られていました。 A...
著者: Qianshan校正:ウー・ムーテクノロジーの進歩により、AIは大きな発展の可能性を示してい...
[[205696]]簡単なコメント: AI、機械学習、ディープラーニングは近年注目されている分野で...
ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...
データ サイエンティストがディープラーニングについて話すとき、通常は画像の生成、検出、分類、回帰タス...
ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...