K 分割交差検証とグリッドサーチ

みなさんこんにちは、私はZhibinです〜

今日は、GridSearch グリッド検索と K 分割相互認証を使用して、決定木モデルのパラメータを調整する方法を紹介します。

前回の記事では、決定木モデルの構築と実践を紹介しました。その時は、max_depth という 1 つのパラメータのみが使用されていました。しかし、実際には、モデルには、criterion (特徴選択基準)、class_weight (クラスの重み) などの他の影響パラメータがあります。より正確な結果を得たい場合は、モデルパラメータを調整し、モデルを構築するための最適なパラメータを見つける必要があります。

1. K分割交差検証

K 分割交差検証では、実際にデータセットを K 個の部分に分割し、そのたびに K-1 個の部分をトレーニングセットとして選択し、残りの部分をテストセットとして使用し、K 個のモデルの平均テスト結果を最終的なモデル効果として取得します。次の図に示すように:

K 値の選択はデータセットのサイズに関係します。データセットが小さい場合は K 値を増やし、データセットが大きい場合は K 値を減らしてください。実装コードは次のとおりです。

 sklearn.model_selection から cross_val_score をインポートします
acc = cross_val_score(モデル、X、Y、cv=5)

2. グリッドサーチ

GridSearch は、すべての候補パラメータを走査し、各モデルの有効性と精度を評価し、最終結果として最適なパラメータを選択する、徹底的な検索パラメータ調整方法です。

パラメータチューニングは、単一パラメータチューニングと複数パラメータチューニングに分かれています。Zhibin はそれぞれ例を挙げて紹介します。

（１）単一パラメータチューニング

単一パラメータのチューニングを説明するために、単一パラメータ max_depth を例に挙げます。コードは次のとおりです。

 sklearn.model_selection から GridSearchCV をインポートします
パラメータ = {'max_depth':[1,3,5,7,9]}
 grid_search = GridSearchCV(モデル、パラメータ、スコアリング='roc_auc'、cv=5)grid_search.fit(X_train、Y_train)

出力パラメータの最適な結果:

グリッド検索.ベストパラメータ

max_depth パラメータの最適な結果は次のとおりです。

上記で得られた最適なパラメータ値でモデルを再構築し、AUC値が改善されたかどうかを確認します。コードは次のとおりです。

モデル = DecisionTreeClassifier(最大深度=7)
モデルをフィット(X_train,Y_train)
 y_pred_proba = model.predict_proba(X_test)
 sklearn.metricsからroc_auc_scoreをインポートします
スコア = roc_auc_score(Y_test.values,y_pred_proba[:,1])

得られた AUC 値は次のとおりです。

これは以前の値 0.958 よりも高く、モデルの精度が向上したことを示しています。

（２）マルチパラメータチューニング

決定木モデルには次のパラメータがあります。

これらのパラメータは、構築した決定木モデルの精度に影響します。ここでは、max_depth (最大深度)、criterion (特徴選択基準)、min_samples_split (子ノードを下方に分割するために必要なサンプルの最小数) を例として、マルチパラメータチューニングを実行します。コードは次のとおりです。

 sklearn.model_selection から GridSearchCV をインポートします
パラメータ = {'max_depth':[5,7,9,11,13],'criterion':['gini','entropy'],'min_samples_split':[5,7,9,11,13,15]}
モデル = DecisionTreeClassifier()
 grid_search = GridSearchCV(モデル、パラメータ、スコアリング='roc_auc'、cv=5)
グリッド検索.fit(X_train,Y_train)

出力パラメータの最適値:

グリッド検索.ベストパラメータ

上記で得られた最適なパラメータ値でモデルを再構築し、AUC値が改善されたかどうかを確認します。コードは次のとおりです。

モデル = DecisionTreeClassifier(基準 = 'エントロピー'、最大深度 = 13、最小サンプル分割 = 15)
モデルをフィット(X_train,Y_train)
 y_pred_proba = model.predict_proba(X_test)
 sklearn.metricsからroc_auc_scoreをインポートします
スコア = roc_auc_score(Y_test.values,y_pred_proba[:,1])

得られた AUC 値は次のとおりです。

これは以前の値 0.985 よりも高く、モデルがさらに最適化されたことを示しています。

<<: NLP技術の準備——自然言語処理技術はあなたの妻ではありません

>>: 世界の自動運転「M&A」を4大勢力が攻勢

データセンターにおけるロボットの使用はどのように増加するのでしょうか?

ブログ

「Nuwa」のAIバージョンが登場！テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

K 分割交差検証とグリッドサーチ

1. K分割交差検証

2. グリッドサーチ

（１）単一パラメータチューニング

（２）マルチパラメータチューニング

データセンターにおけるロボットの使用はどのように増加するのでしょうか?

「Nuwa」のAIバージョンが登場！テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

Googleが検索エンジンアルゴリズムを調整：HTTPSサイトのランキングが上昇

Puyuanはインテリジェントなビジネスプロセスを推進：「BPM+RPA」が進行中で、企業のデジタル変革を実現

アナリスト：生成AIは過大評価されており、関連業界は2024年に「冷え込む」と予想されている

Nvidia、AIを使った仮想世界のリアルタイムレンダリングを実演

ソラの素晴らしい映像は驚異的で、ハリウッドの監督は8億ドルのスタジオを急遽撤去しました。ソラの「社内ベータ」が予定より早く開始、映画・テレビ業界に失業の波が押し寄せる

推薦する

プリンストンが 34B 数学モデルをオープンソース化: パラメータが半分なのに Google Minerva に匹敵するパフォーマンス! 550億トークンのプロフェッショナルデータトレーニング

F1カーがハッキングされた、人工知能技術が救世主となるのか？

効率的にトレーニングするにはどうすればいいですか?概要: 大規模なディープラーニングトレーニングのための並列分散システム

機械学習を使うべきタイミング

人工知能、AI、ロボットは雇用に影響を与えるでしょうか?劉強東さんの答えに人々は拍手喝采しました！

人工知能はどれくらい普及しているのでしょうか?国内初となる人工知能講座が小中学校で実施されました！

この式がブロックされると、AI IQはゼロになります

2023 年までにデータセンターで注目される AI と ML の 10 大アプリケーション

これが顔認識と画像認識がますます重要になっている理由です

音声認識の専門家が奇妙な学生事件によりジョンズ・ホプキンス大学から解雇され、怒ってFacebookを拒否し、中国に移住した

GPTベースの開発者ツール

中国の建設ロボット軍団がやってくる！

人工知能の過去と現在を1つの記事で理解する（おすすめコレクション）

GPT-4 スーパーデラックスパッケージがオンラインに、新型 32K モデルがリーク！ファイルアップロード分析、自動モデル選択、そして何千ものAI企業の中で究極のキラー