この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。 機械学習における一般的な問題は、ターゲット クラスに非常に不均衡な量のデータが存在する、不均衡なデータを処理することです。
マルチクラス不均衡データとは何ですか? 分類問題の対象クラス(2 つ以上)が均等に分布していない場合、不均衡データと呼ばれます。この問題が適切に処理されない場合、クラスの不均衡なデータを使用したモデリングは多数派クラスに偏るため、モデルは惨事になります。不均衡なデータに対処するにはさまざまなアプローチがありますが、最も一般的なのはオーバーサンプリングと合成サンプルの作成です。 SMOTE アルゴリズムとは何ですか? SMOTE は、データセットから合成例を生成するオーバーサンプリング手法であり、少数派クラスの予測力を向上させます。情報の損失はありませんが、いくつかの制限があります。 合成サンプル 制限:
したがって、この問題を回避するには、「class_weight」パラメータを使用してクラスに手動で重みを割り当てることができます。 クラスの重みを使用するのはなぜですか? クラスの重みは、異なる重みを持つクラスにペナルティを課すことで損失関数を直接変更し、少数クラスのパワーを意図的に増加させ、多数クラスのパワーを減少させます。したがって、SMOTE よりもうまく機能します。この記事では、不均衡な学習問題に適したデータの重みを取得するための最も一般的な手法をいくつか紹介します。 (1) Sklearnユーティリティ クラスの重みは、sklearn を使用して取得および計算できます。モデルをトレーニングする際にこれらの重みを少数クラスに追加すると、クラスの分類パフォーマンスが向上します。
ロジスティック回帰から Catboost まで、ほぼすべての分類アルゴリズムには、class_weight パラメーターがあります。しかし、XGboost はバイナリ分類には scale_pos_weight を使用し、バイナリおよびマルチクラスの問題には sample_weight を使用します。 (2)数と長さの比 非常に簡単です。行数を各クラスのカウント数で割るだけです。
(3)ウェイトを滑らかにする これは重量を選択する最良の方法の 1 つです。 labels_dict は各クラスのカウントを含む辞書オブジェクトであり、対数関数は不均衡なクラスの重みを平均化します。
(4)サンプル重み戦略 以下の関数は、XGboost アルゴリズムのサンプル重みを取得するために使用される class_weight パラメータとは異なります。トレーニング例ごとに異なる重みを返します。サンプルの重みは、データと同じ長さの配列で、各サンプルに適用されたモデル損失の重みが含まれます。
(5)クラス重みとサンプル重み: サンプルの重みは、各トレーニング サンプルの重みを提供するために使用されます。つまり、トレーニング サンプルとまったく同じ数の要素を持つ 1D 配列を渡す必要があります。クラスの重みは、各ターゲット クラスに重みを提供するために使用されます。つまり、分類するクラスごとに 1 つの重みを渡す必要があります。 これらは、分類器のクラス重みとサンプル重みを見つけるためのいくつかの方法です。これらのテクニックはすべて私のプロジェクトで機能したので、ぜひ試してみてください。きっと大いに役立つでしょう。 |
<<: 精密人工知能:原子核物理学と素粒子物理学における新たな力
>>: 95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
Amazon Lex は、音声とテキストを使用してあらゆるアプリケーションに会話型インターフェースを...
序文この論文では、遺伝的アルゴリズムにおけるいくつかの選択戦略についてまとめています。比例ルーレット...
このオンラインセミナーで特に注目を集めた講演は、コロンビア大学のコンピューターサイエンス教授であるク...
自動運転車は自動車業界にとって非常に破壊的な技術です。現在、多くのメーカーが物流、自動運転タクシー、...
最近、「被験者 3」について多かれ少なかれ耳にしたことがあるかもしれません。握手、軽く捻挫した足、リ...
海外メディアの報道によると、1月26日、GoogleはLumiereと呼ばれる人工知能ビデオジェネレ...
半月も経たないうちに、第6波がまたやってきました!現地時間5月4日、米証券取引委員会は再び「上場廃止...
若者に向けて、Lao Huang 氏から 3 つの提案を紹介します。学ぶことをやめず、できる限り最善...
速報です!海外メディアは、OpenAIのCEOサム・アルトマン氏が、元Appleのチーフデザイナーの...
マイクロロボットは極めて狭い空間でも移動できますが、これは人間や従来のロボットでは不可能なことです。...
[[272461]] 7月30日、成都ハイテクゾーンの景栄会で開催された2019年世界人工知能サミッ...
データスキルについてまだ不安がありますか?アルゴリズムの革新を適用できる場所はありませんか?こんなに...