剪定法を使用してより良い決定木を設計する方法

剪定法を使用してより良い決定木を設計する方法

決定木 (DT) は、分類および回帰の問題を解決するために使用される教師あり機械学習アルゴリズムです。剪定法を使用して決定木を設計する方法を見てみましょう。

決定木分析は、汎用の予測機械学習モデリング ツールです。これは、機械学習にとって最もシンプルで便利な構造の 1 つです。決定木は、さまざまな条件に基づいてデータセットを分割するアルゴリズム アプローチを使用して構築されます。決定木は、教師あり学習でよく使用される機能的手法の 1 つです。

しかし、剪定法を使用して決定木を設計する前に、その概念を理解する必要があります。

決定木を理解する

決定木は、分類および回帰の問題を解決するために使用される教師あり機械学習アルゴリズムです。決定木は、ネストされた if-else ステートメントの条件のセットに従って予測を行います。決定木は主に分類と回帰に使用されるため、決定木を作成するために使用されるアルゴリズムは CART (分類と回帰ツリー) と呼ばれます。そして、決定木を構築するためのさまざまなアルゴリズムが提案されてきました。決定木は、データの特徴から推論された単純な決定ルールを学習することで、ターゲット変数の値を予測するモデルを作成することを目的としています。

決定木の各ノードは決定を表します。

上の図では、ルート ノードは深さが 0 の決定木グラフの開始点です。次に、バイナリ決定が行われる子/内部ノードが続きます。最後に、カテゴリに関する予測を行うために使用されるリーフ ノードがあります。

決定木の構築に役立つアルゴリズムは、変数とその属性からターゲット変数を予測するように設計されています。決定木の構造は、ルート ノードからブランチまで 2 つのバイナリ シーケンスに分割されます。決定木のリーフ ノードに到達するには、コンテンツは複数の内部ノードを通過して予測をチェックする必要があります。

意思決定ツリーを構築する際の前提

決定木を使用する際に考慮すべきいくつかの仮定は次のとおりです。

  • トレーニング セット全体がルートです。
  • カテゴリ特徴値を持つ方がよいでしょう。決定木モデルを構築する前に離散値を使用します。
  • 属性値はレコードを再帰的に配布するために使用されます。
  • 統計的手法を使用して、どの属性を決定木のルート ノードまたは内部ノードとして配置するかを決定します。

決定木では、積和 (SOP) または選言正規形表現を使用します。

異なる分岐終了を持つ決定木のルートからリーフ ノードまでのクラス内の各分岐は、論理和 (合計) を形成し、同じクラスは値の論理積 (積) を形成します。

決定木を選択する理由は何ですか?

決定木は、人間が現実世界で意思決定を行う際に使用するのと同じプロセスに従うため、理解しやすくなります。これは機械学習における意思決定問題を解決するために非常に重要です。機械学習モデルのトレーニングによく使用される理由は、決定木が問題の考えられるすべての結果を検討するのに役立つためです。さらに、他のアルゴリズムと比較して、データのクリーニングの必要性が少なくなります。

ただし、決定木にも、過剰適合という限界があります。

決定木における過剰適合

過剰適合は決定木における深刻な問題です。決定木が最大深度まで成長することを許可した場合、決定木は常にトレーニング データに過剰適合します。過剰適合は、決定木がトレーニング データセット内のすべての例に完全に適合するように設計されている場合に発生します。その結果、決定木は厳密なスパース データ ルールを持つブランチを生成することになり、トレーニング セットに含まれていないサンプルを使用することで予測の精度に影響を与える可能性があります。決定ツリーが深くなるほど、決定ルールのシーケンスは複雑になります。最大深度を割り当てることは、決定木を簡素化し、過剰適合に対処する最も簡単な方法です。

しかし、決定木モデルをより正確に改善するにはどうすればよいでしょうか? 調べてみましょう。

剪定によって決定木の過剰適合を防ぐにはどうすればよいでしょうか?

剪定は、決定木における過剰適合を排除するために使用される手法です。最も弱いルールを排除することで決定木を簡素化し、さらに次のように分類できます。

  • 事前剪定とは、制約を設定して初期段階で決定木の成長を制限することを指します。これを行うには、ハイパーパラメータ チューニングを使用して、min_samples_split、min_samples_leaf、max_depth などのパラメータを設定します。
  • 決定木を構築した後に、後剪定法が使用されます。これは、決定木が非常に深くなり、モデルの過剰適合の兆候が見られる場合に使用されます。このため、max_samples_split や max_depth などの決定木のブランチも、コスト複雑度の削減によって制御されます。

剪定は剪定されていない決定木から始まります。次に、サブツリー シーケンスを取得し、クロス検証を通じて最適なサブツリー シーケンスを選択します。

サブツリーが最適であること、つまり、サブツリーの精度が高く、最適なサブツリー検索が計算上扱いやすいことを確認することが重要です。したがって、剪定は過剰適合を減らすだけでなく、パフォーマンスを維持しながら、剪定されていない決定木よりも決定木を単純化し、理解しやすく、より効果的に解釈できるようにします。

結論

決定木は教師あり機械学習アルゴリズムの一種であることが現在では知られています。他の教師あり学習アルゴリズムと比較して、決定木は分類問題や回帰問題の解決にも使用できます。

決定木は、以前のトレーニング データから得られた単純な決定ルールに基づいて変数の値またはカテゴリを予測するモデルを構築するために使用されます。剪定は、意思決定ツリーの複雑さを軽減し、制約を設定しながら、正確な決定を下すのに役立ちます。

剪定によるより良い決定木の設計方法


<<:  このAIは、監視対象を素早く検索するのに役立ちます:テキスト配置キーフレーム、24時間のビデオ録画10分処理

>>:  このAIは、監視カメラを素早く検索し、重要なシーンを見つけ、24時間のビデオを10分で処理するのに役立ちます。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

データ構造の8つの一般的なソートアルゴリズム

[[172688]]序文8 つのソート アルゴリズムと 3 つの検索アルゴリズムは、データ構造におけ...

Baidu の計算生物学研究が Nature のサブジャーナルに掲載されました!スタンフォード大学やMITを上回る成果、製薬分野に進出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

[[399492]] Big Blue は、AI ベースのプログラミング ツール向けの充実したトレー...

「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...

DidiがAoEをオープンソース化: AIの迅速な統合を可能にする端末操作環境SDK

Didi は、エンドサイド AI 統合ランタイム環境 (IRE) である AoE (AI on E...

MIT、思考制御によるロボットのミスを防ぐ新しいインターフェースシステムを開発

[[233698]]海外メディアの報道によると、ロボットに災害を引き起こす可能性のあることをしないよ...

2021年にデータセンターに起こる変化と傾向

2020 年は、IT プロフェッショナルがインフラストラクチャを管理およびプロビジョニングする方法を...

平安生命保険の謝家彪氏: ビッグデータでの機械学習に Microsoft R Server を使用する

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...

機械学習の公平性研究は正しい方向に進んでいるのでしょうか?

機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?人工知能の発展に伴い、...

従来の銀行は人工知能をどのように活用しているのでしょうか? ——2017年中国国際金融博覧会で光り輝く民生銀行の技術革新に関するメモ

【51CTO記者李玲玲が北京からレポート】先日、「イノベーション主導の着実な変革と共同金融」をテーマ...

シンプルなアルゴリズムで分散システムのパフォーマンスが瞬時に10倍以上向上

1. 概要この記事では、多数のクライアントが同時にデータを書き込む場合に、分散ファイルシステム HD...

人工知能とビッグデータが心理学の分野に参入

人工知能とビッグデータの時代の到来により、心理学の研究に新たな扉が開かれました。人工知能は心理学実験...

業界アプリケーション: ドローンに正確な測位技術を提供するにはどうすればよいでしょうか?

背景ステータス:科学技術の発展に伴い、無人航空機であるドローンは、一定の高さから地上の映像を取得でき...

滴滴出行とスタンフォード人工知能研究所が協力

滴滴出行は5月5日、スタンフォード人工知能研究所との提携を発表した。両者は人工知能のホットな話題につ...