不均衡なデータを処理する Python ライブラリ トップ 10

不均衡なデータを処理する Python ライブラリ トップ 10

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回り、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するのに役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための上位 10 個の Python ライブラリを紹介し、各ライブラリのコード スニペットと説明を提供します。

1. 不均衡な学習

imbalanced-learn は、データセットの再バランス調整のためのさまざまな手法を提供する scikit-learn の拡張機能です。オーバーサンプリング、アンダーサンプリング、および組み合わせ方式を提供します。

 from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

2. スモート

SMOTE はデータセットのバランスをとるために合成サンプルを生成します。

 from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

3. アダシン

ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。

 from imblearn.over_sampling import ADASYN adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

4. ランダムアンダーサンプラー

RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。

 from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

5. トメックリンク

Tomek Linksは、異なるクラスの最も近い隣接ペアを削除し、複数のサンプルの数を減らすことができます。

 from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

6. SMOTEENN (SMOTE + 編集された最近傍)

SMOTEENN は SMOTE と Edited Nearest Neighbors を組み合わせたものです。

 from imblearn.combine import SMOTEENN smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

7. SMOTETomek (SMOTE + Tomek リンク)

SMOTEENN は、オーバーサンプリングとアンダーサンプリングのために SMOTE と Tomek Links を組み合わせます。

 from imblearn.combine import SMOTETomek smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

8. イージーアンサンブル

EasyEnsemble は、多数派クラスのバランスの取れたサブセットを作成するアンサンブル メソッドです。

 from imblearn.ensemble import EasyEnsembleClassifier ee = EasyEnsembleClassifier() ee.fit(X, y)

9. バランスランダムフォレスト分類器

BalancedRandomForestClassifier は、ランダム フォレストとバランスのとれたサブサンプリングを組み合わせたアンサンブル メソッドです。

 from imblearn.ensemble import BalancedRandomForestClassifier brf = BalancedRandomForestClassifier() brf.fit(X, y)

10. RUSBoost分類器

RUSBoostClassifier は、ランダム アンダーサンプリングとブースティングを組み合わせたアンサンブル メソッドです。

 from imblearn.ensemble import RUSBoostClassifier rusboost = RUSBoostClassifier() rusboost.fit(X, y)

要約する

不均衡なデータに対処することは、正確な機械学習モデルを構築する上で非常に重要です。これらの Python ライブラリは、この問題に対処するためのさまざまなテクニックを提供します。データセットと問題に応じて、データを効果的にバランスさせる最も適切な方法を選択できます。

<<:  チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

>>:  ガウス混合モデルを用いた多峰性分布の分離

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

Kuaishou AIテクノロジーがゲームチェーン全体に力を与える

導入ゲーム業界は近年急速に発展しており、2020年第1四半期だけでも中国のゲーム市場の売上高は700...

生成 AI は私たちに必要な技術革命でしょうか?

アンディ・ノーラン過去、生成 AI について多くの人が話し、使用し、さまざまなユースケースを試してき...

...

AIIAがAIチップベンチマークの第一ラウンドの結果を発表

3月6日、国際電気通信連合と中国情報通信研究院が共催し、人工知能産業発展連盟(AIIA)とZTEが主...

...

2018 年の 15 大テクノロジー トレンド、テクノロジーに関して正しい方向に進んでいますか?

[[216696]]一般的に言えば、未来そのものを予測することは難しいため、技術動向を明確に予測す...

なぜ AIoT が将来の主流となるのでしょうか?

エンジニアであれ消費者であれ、AIとIoT技術が私たちの生活にもたらした変化は誰もが感じています。ビ...

マスク氏:プログラマーの62%が人工知能が武器化されると考えている

常に人工知能の脅威論を支持してきたシリコンバレーの「鉄人」マスク氏は、今回、プログラマーたちの間で支...

...

Facebook が人工知能を活用する 6 つの方法 (予想外のものもいくつかある)

[51CTO.com クイック翻訳] Facebook は人工知能を使用してポルノを識別し、マーク...

今検討する価値のある 21 のロボティック プロセス オートメーション (RPA) ツール

[[422760]] [51CTO.com クイック翻訳]事実によれば、ロボティック プロセス オー...

Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

百度脳産業イノベーションフォーラムが深圳に移転、今回はAIを活用して不動産イノベーションを支援

AIは新たな産業変革の中核的な原動力となっています。生活のあらゆる分野が人工知能によって変革され、ア...

機械学習を使って純粋数学を新たな方法で探求する

1 世紀以上前、インドの伝説的な数学者シュリニヴァーサ・ラマヌジャンは、その比類のない数学的才能で数...