ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

決定木は、機械学習で使用される最も人気があり強力な分類アルゴリズムの 1 つです。名前が示すように、決定木は特定のデータ セットに基づいて決定を下すために使用されます。つまり、適切な特徴を選択して、人間の思考の流れに似たサブパーツにツリーを分割するのに役立ちます。

決定木を効率的に構築するために、エントロピー/情報ゲインとジニ不純度の概念を使用します。ジニ不純度とは何か、そしてそれが決定木の構築にどのように使用できるかを見てみましょう。

[[375443]]

ジニ純度とは何ですか?

ジニ不純度は、ルート ノードと後続の分割に最適な分割を決定するために決定木アルゴリズムで使用される方法です。これは、決定木を分割する最も一般的かつ最も簡単な方法です。バイナリ分割のみを実行するため、カテゴリ ターゲットにのみ適しています。

ジニ不純度の式は次のとおりです。


ジニ不純度が低いほど、ノードは均質になります。純粋なノード (同じクラス) のジニ不純度は 0 です。ジニ不純度を計算するための例としてデータ セットを取り上げます。

データ セットには、男子 8 名と女子 10 名の計 18 名の生徒が含まれています。パフォーマンスに応じて次のように分類されます。


上記のジニ不純度の計算は次のとおりです。


上記の計算では、分割(ルートノード)の加重ジニ不純度を見つけるために、子ノードの学生の確率を使用しました。 「平均以上」ノードと「平均以下」ノードの場合、各ノードの男子生徒と女子生徒の数はクラスでの成績に応じて異なりますが、2 つの子ノードの生徒数は等しいため、確率は 9/18 のみです。

ジニ不純度を使用して決定木を分割する手順は次のとおりです。

  • エントロピー/情報ゲインで行われることと同様です。各分割ごとに、子ノードごとにジニ不純度が個別に計算されます。
  • 各分割のジニ不純度は、子ノードの加重平均ジニ不純度として計算されます。
  • ジニ不純度値が最も低い分割を選択します。
  • 同じタイプのノードが得られるまで、手順 1 ~ 3 を繰り返します。

ジニ不純度の要約:

  • ルート ノード、中間ノード、およびリーフ ノードを見つけて、決定木を作成するのに役立ちます。
  • 分類ツリーの CART (分類および回帰ツリー) アルゴリズムによって使用されます。
  • ノード内のすべてのケースが 1 つの目標に属する場合、最小値 (ゼロ) に達します。

要約すると、ジニ不純度は、より単純であり、計算コストが高く難しい対数を使用しないため、エントロピー/情報ゲインよりも好まれます。

<<:  機械学習の博士課程での私の経験から得た洞察

>>:  海運業界は人工知能を活用して海賊行為と戦うことができる

ブログ    
ブログ    
ブログ    

推薦する

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

...

...

...

Appleが大規模モデル圧縮技術を革新、大規模モデルを携帯電話に搭載可能に

大規模言語モデル (LLM)、特に生成事前トレーニング済みトランスフォーマー (GPT) モデルは、...

アイウェア市場は1000億円規模を超えるか? 3Dプリントで「顔のカスタマイズ」を実現

私たちの日常生活には、近視用メガネ、サングラス、サングラス、遠視用メガネ、ゴーグルなど、視力矯正、視...

10億ドルか、それともカタツムリを追いかけるだけか?上海大学准教授が科学論文を発表:機械に意思決定を手伝わせよう

人にとって選択をすることはどれほど困難で興味深いことでしょうか?知乎の質問を見てみましょう: 10億...

...

...

未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

4月23日、海外メディアの報道によると、カリフォルニア大学サンフランシスコ校の研究チームが開発した...

LeCunの新作、カード1枚でトレーニングできる!分散正規化、スパースエンコーダがクラッシュしなくなりました

最近、LeCun は、依然として崩壊問題と自己監督に関する新しい研究を発表しました。今回、彼は新しい...

...

大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

データ量とモデルパラメータの数を増やすことが、ニューラル ネットワークのパフォーマンスを向上させる最...

Testin Cloud Testing: テクノロジーを活用して企業の飛躍を支援

急速に発展するデジタル時代において、ビジネスの成功にとって高品質で効率的なテスト サービスが重要であ...

ChatGPT を使用して HR を強化するにはどうすればよいでしょうか?

------01------人事担当者としては、日々さまざまな採用情報を発信する必要があります。以...