機械学習における不均衡なクラスに対処するための 5 つの戦略

機械学習における不均衡なクラスに対処するための 5 つの戦略

クラスの不均衡: 希少疾患の機械学習データセット(陽性が約 8%)があるとします。この場合、トレーニングを行わず単に病気がないと伝えたとしても、92% の精度が得られます。したがって、クラスの不均衡がある場合、精度は正確ではありません。

このガイドでは、機械学習における不均衡なクラスに対処するための 5 つの戦略を紹介しました。

  • 少数派のアップサンプリング
  • 多数派クラスをダウンサンプリングする
  • パフォーマンス指標の変更
  • ペナルティアルゴリズム
  • ツリーベースのアルゴリズムの使用

1. 少数クラスのアップサンプリング: これは、少数クラスの観測値をランダムに複製して、サンプル数が多数クラスのものと一致するようにすることを意味します。

まず、各クラスの観測値を異なる DataFrame に分割します。

次に、サンプル数を多数派クラスのサンプル数と一致するように設定して、少数派クラスを置換によって再サンプリングします。

***、アップサンプリングされた少数クラスの DataFrame を元の多数クラスの DataFrame と結合します。

合成サンプルの作成(データ拡張)

合成サンプルの作成はアップサンプリングと非常に近いものであり、これらを一緒に分類する人もいます。たとえば、SMOTE アルゴリズムは、特徴値をわずかに調整しながら少数クラスから再サンプリングし、「新しい」サンプルを作成する方法です。

2. 多数派クラスのダウンサンプリング: ダウンサンプリングでは、多数派クラスの信号が学習アルゴリズムを支配するのを防ぐために、多数派クラスから観測値をランダムに削除します。

まず、各クラスの観測値を異なる DataFrame に分割します。

次に、サンプル数を少数クラスと一致するように設定して、多数クラスを非置換で再サンプリングします。

***、ダウンサンプリングされた多数派クラスの DataFrame を元の少数派クラスの DataFrame と結合します。

3. 変更パフォーマンス指標: AUROC (ROC曲線の下の面積)

ロジスティック回帰などの確率的バイナリ分類器があるとします。

ROC 曲線を説明する前に、混同行列の概念を理解することが重要です。バイナリ予測を行うと、次の 4 種類の結果が考えられます。

  • 実際のクラスは 0 であるのに、0 を予測しました。これは真陰性と呼ばれ、つまり、クラスが負 (0) であると正しく予測したことになります。たとえば、ウイルス対策ソフトウェアは、無害なファイルをウイルスとして検出しません。
  • 実際のクラスは 1 であるのに 0 を予測します。これは偽陰性と呼ばれ、クラスが負 (0) であると誤って予測したことになります。たとえば、ウイルス対策ソフトウェアではウイルスを検出できません。
  • 実際のクラスは 0 であるのに 1 を予測しました。これは偽陽性と呼ばれ、クラスが陽性であると誤って予測したことになります (1)。たとえば、ウイルス対策ソフトウェアは、無害なファイルをウイルスと認識します。
  • 実際のクラスは 1 であるのに 1 を予測しました。これは真陽性と呼ばれ、つまりクラスが陽性 (1) であると正しく予測したことになります。たとえば、ウイルス対策ソフトウェアがウイルスを正しく検出しました。

混同行列を取得するには、機械学習モデルによって行われたすべての予測を振り返り、次の 4 つの結果がそれぞれ何回発生したかを数えます。

この混同行列の例では、分類された 50 個のデータ ポイントのうち、45 個が正しく分類され、5 個が誤って分類されました。

通常、異なるモデルを比較するには複数のメトリックを使用するよりも単一のメトリックを使用する方が便利なので、混同行列から 2 つのメトリックを計算し、それらを 1 つに結合します。

  • 真陽性率 (TPR) は、感度、精度、再現率とも呼ばれ、+TPTP + FN として定義されます。直感的には、このメトリックは、すべての正のデータ ポイントに対する、正しく正であると見なされる正のデータ ポイントの割合に対応します。言い換えれば、TPR が高ければ高いほど、見逃す肯定的なデータ ポイントが少なくなります。
  • フォールアウトとも呼ばれる偽陽性率 (FPR) は、+FPFP+ TN として定義されます。直感的には、このメトリックは、すべての負のデータ ポイントに対する、誤って正であると見なされる負のデータ ポイントの割合に対応します。つまり、FPR が高くなるほど、より多くの否定的なデータ ポイントが誤分類されることになります。

FPR と TPR を 1 つのメトリックに結合するには、まず、さまざまなしきい値 (例: 0.00、0.01、0.02、…、1.000.00、0.01、0.02、…、1.00) を使用してロジスティック回帰で最初の 2 つのメトリックを計算し、次に、横軸に FPR 値、縦軸に TPR 値をとってグラフにプロットします。結果として得られる曲線は ROC 曲線と呼ばれ、ここで考慮する指標はこの曲線の AUC であり、これを AUROC と呼びます。

次の図は AUROC をグラフィカルに示しています。

この図では、青い領域は AUROC の曲線の下の領域に対応します。対角線の破線はランダム予測子の ROC 曲線を示しています。AUROC は 0.5 です。

AUROC は 0 から 1 の間で、AUROC = 1 は予測モデルが完璧であることを意味します。実際、AUROC が 0.5 から離れるほど、より良い結果が得られます。AUROC < 0.5 の場合は、モデルによる決定を反転させるだけで済みます。したがって、AUROC = 0 の場合、モデルの出力を反転するだけで最適な機械学習モデルが得られるため、これは朗報です。

4. ペナルティアルゴリズム:

次の戦略は、少数派クラスを誤分類するコストを増やすペナルティ付き学習アルゴリズムを使用することです。

この技術の一般的なアルゴリズムは、ペナルティ付きSVM(サポートベクターマシン)です。

トレーニング中に、パラメータ class_weight='balanced' を使用して、少数クラスのエラーに、そのクラスの過小表現の量に比例した量だけペナルティを課すことができます。

SVM アルゴリズムの確率推定を有効にする場合は、パラメータ probability=True も含める必要があります。

元の不均衡なデータセットでペナルティ付き SVM を使用してモデルをトレーニングしてみましょう。

5. ツリーベースのアルゴリズムを使用する

ここで検討する *** 戦略では、ツリーベースのアルゴリズムを使用します。決定木は階層構造により両方のクラスからの信号を学習できるため、不均衡なデータセットでも優れたパフォーマンスを発揮することがよくあります。

現代の応用機械学習では、ツリーのアンサンブル (ランダム フォレスト、勾配ブースティング ツリーなど) は、ほぼ常に単一の決定木よりも優れたパフォーマンスを発揮します。

97% の精度とほぼ 100% の AUROC。

ツリー アンサンブルは、多くの現実の問題に対して非常に優れたパフォーマンスを発揮するため、非常に人気が高まっています。

ただし、これらの結果は有望ではありますが、機械学習モデルは過剰適合する可能性があるため、最終決定を下す前にテスト セットで評価する必要があります。

<<:  ベイジアンパーソナライズランキングアルゴリズムを1つの記事で理解する

>>:  好むと好まざるとにかかわらず、AIクラウド運用はやってくる

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コ...

200日!上海の18歳の高校生が、250行のPythonコードで「魂を注入」したロボットを自作した。

以前、22歳の何さんは卒業プロジェクトで「理工系男子の究極のロマンス」を解釈しました。ハードコアな卒...

...

...

AlphaDev がソートアルゴリズムを 70% 高速化! C言語ライブラリの作者がDeepMindの最新AIについて解説

数日前、DeepMind はソートアルゴリズムを 70% 直接的に高速化する AlphaDev をリ...

...

AI医用画像の春が再び到来?

概要: AI医用画像診断市場は急速な成長期を迎えつつあり、医師の負担を軽減しながら医療の質の向上も期...

中国チームが最優秀論文賞と最優秀システム論文賞を受賞し、CoRLの受賞論文が発表されました。

CoRL は 2017 年に初めて開催されて以来、ロボット工学と機械学習の交差点における世界トップ...

米国の専門家:中国のロボット優位性が懸念される

フォーブスは10月2日、寄稿者ティム・バジャリン氏による記事を掲載し、中国ロボットの利点と、中国と米...

機械学習における皇帝の新しい服の発見

[[246000]]ビッグデータダイジェスト制作編曲:李佳、メロディー、雲周機械学習は、データ内のパ...

ビッグデータが急成長し、我が国のクラウドコンピューティングは「黄金の窓」の時代を迎えている

[[206431]]クラウドコンピューティングは、電力網、交通網、インターネットと同様の「国家インフ...

DAMOアカデミーが最新の量子コンピューティングの成果を発表、新しいプラットフォームは2ビットゲート精度99.72%を達成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ビジネスでAIと自動化を活用する方法

業界の専門家が AI と自動化のベストプラクティスについて議論し、企業がこれらの重要な新興テクノロジ...

Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

[[424530]] 1. 背景近年、人工知能はセキュリティ、教育、医療、観光などの産業や生活の場面...

...