不均衡なデータを処理する Python ライブラリトップ 10

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回り、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するのに役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための上位 10 個の Python ライブラリを紹介し、各ライブラリのコードスニペットと説明を提供します。

1. 不均衡な学習

imbalanced-learn は、データセットの再バランス調整のためのさまざまな手法を提供する scikit-learn の拡張機能です。オーバーサンプリング、アンダーサンプリング、および組み合わせ方式を提供します。

 from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

2. スモート

SMOTE はデータセットのバランスをとるために合成サンプルを生成します。

 from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

3. アダシン

ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。

 from imblearn.over_sampling import ADASYN adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

4. ランダムアンダーサンプラー

RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。

 from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

5. トメックリンク

Tomek Linksは、異なるクラスの最も近い隣接ペアを削除し、複数のサンプルの数を減らすことができます。

 from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

6. SMOTEENN (SMOTE + 編集された最近傍)

SMOTEENN は SMOTE と Edited Nearest Neighbors を組み合わせたものです。

 from imblearn.combine import SMOTEENN smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

7. SMOTETomek (SMOTE + Tomek リンク)

SMOTEENN は、オーバーサンプリングとアンダーサンプリングのために SMOTE と Tomek Links を組み合わせます。

 from imblearn.combine import SMOTETomek smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

8. イージーアンサンブル

EasyEnsemble は、多数派クラスのバランスの取れたサブセットを作成するアンサンブルメソッドです。

 from imblearn.ensemble import EasyEnsembleClassifier ee = EasyEnsembleClassifier() ee.fit(X, y)

9. バランスランダムフォレスト分類器

BalancedRandomForestClassifier は、ランダムフォレストとバランスのとれたサブサンプリングを組み合わせたアンサンブルメソッドです。

 from imblearn.ensemble import BalancedRandomForestClassifier brf = BalancedRandomForestClassifier() brf.fit(X, y)

10. RUSBoost分類器

RUSBoostClassifier は、ランダムアンダーサンプリングとブースティングを組み合わせたアンサンブルメソッドです。

 from imblearn.ensemble import RUSBoostClassifier rusboost = RUSBoostClassifier() rusboost.fit(X, y)

要約する

不均衡なデータに対処することは、正確な機械学習モデルを構築する上で非常に重要です。これらの Python ライブラリは、この問題に対処するためのさまざまなテクニックを提供します。データセットと問題に応じて、データを効果的にバランスさせる最も適切な方法を選択できます。

<<: チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

>>: ガウス混合モデルを用いた多峰性分布の分離

ヒントン、ルカン、ベンジオは、ディープラーニングの過去、現在、未来に関する1万語の記事を共同で発表した。

ブログ

ブログ

クラウドがチャットボットの体験をどのように変えるか

ブログ

人間の審判が解雇される？冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

ブログ

不均衡なデータを処理する Python ライブラリトップ 10

1. 不均衡な学習

2. スモート

3. アダシン

4. ランダムアンダーサンプラー

5. トメックリンク

6. SMOTEENN (SMOTE + 編集された最近傍)

7. SMOTETomek (SMOTE + Tomek リンク)

8. イージーアンサンブル

9. バランスランダムフォレスト分類器

10. RUSBoost分類器

要約する

ヒントン、ルカン、ベンジオは、ディープラーニングの過去、現在、未来に関する1万語の記事を共同で発表した。

ChatGPT-4 に基づく IDEA スマートアシスタントの使い方を教えます

AIoT: IoTと人工知能の完璧な組み合わせ

未来志向のAI自動テストツール

クラウドがチャットボットの体験をどのように変えるか

人間の審判が解雇される？冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

推薦する

CESの半導体大手：自動運転のオープンな競争と5Gの秘密の競争

Kuaishou AIテクノロジーがゲームチェーン全体に力を与える

生成 AI は私たちに必要な技術革命でしょうか?

AIIAがAIチップベンチマークの第一ラウンドの結果を発表

2018 年の 15 大テクノロジートレンド、テクノロジーに関して正しい方向に進んでいますか?

なぜ AIoT が将来の主流となるのでしょうか?

マスク氏：プログラマーの62％が人工知能が武器化されると考えている

Facebook が人工知能を活用する 6 つの方法 (予想外のものもいくつかある)

今検討する価値のある 21 のロボティックプロセスオートメーション (RPA) ツール

Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

百度脳産業イノベーションフォーラムが深圳に移転、今回はAIを活用して不動産イノベーションを支援

機械学習を使って純粋数学を新たな方法で探求する