機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では、モデルは通常、サンプル全体のデータ構造の表現であるためです。この表現は通常、サンプル全体の一般的な特性を捉えており、これらの特性に関してサンプル全体と完全に矛盾する点は外れ値と呼ばれます。通常、予測問題では外れ値は開発者に歓迎されません。予測問題は一般にサンプル全体の特性に焦点を当てており、外れ値の生成メカニズムはサンプル全体と完全に矛盾しているためです。アルゴリズムが外れ値に敏感な場合、生成されたモデルはサンプル全体を適切に表現できず、予測も不正確になります。 一方、異常は、病気の予測など、特定のシナリオではアナリストにとって大きな関心事です。通常、健康な人の身体指標は、いくつかの側面で類似しています。人の身体指標が異常である場合、その人の身体状態はいくつかの側面で変化しているはずです。もちろん、この変化は必ずしも病気によって引き起こされるわけではありませんが (通常、ノイズ ポイントと呼ばれます)、異常の発生と検出は病気の予測の重要な出発点です。同様のシナリオは、クレジット詐欺やサイバー攻撃などにも当てはまります。 一般的な外れ値検出方法には、統計ベースの方法、クラスタリングベースの方法、および外れ値を検出するために特別に使用されるいくつかの方法が含まれます。これらの方法については以下で紹介します。 pandas を使用すると、describe() を直接使用してデータの統計的記述 (一部の統計の大まかな観察のみ) を観察できますが、統計データは次のように連続しています。 または、散布図を使用するだけで、外れ値の存在を明確に観察できます。以下のように表示されます。 この原則には条件があり、データは正規分布に従う必要があります。 3∂ 原則によれば、外れ値が標準偏差の 3 倍を超える場合、外れ値とみなすことができます。プラスマイナス3∂の確率は99.7%なので、3∂の平均値から外れた値の確率はP(|xu| 3∂) = 0.003となり、非常に稀で確率の低いイベントとなります。データが正規分布に従わない場合は、標準偏差が平均から何倍離れているかによっても表すことができます。 赤い矢印は外れ値を示しています。 この方法では、ボックス プロットの四分位範囲 (IQR) を使用して外れ値を検出します。これは Tukey 検定とも呼ばれます。ボックス プロットの定義は次のとおりです。 四分位範囲 (IQR) は、上位四分位と下位四分位の差です。 IQR の 1.5 倍を基準とし、上位四分位数 + IQR 距離の 1.5 倍、または下位四分位数 - IQR 距離の 1.5 倍を超えるポイントは外れ値であると規定しています。以下は、主に numpy のパーセンタイル メソッドを使用する Python でのコード実装です。 これを実現するために、seaborn の視覚化メソッド boxplot を使用することもできます。 赤い矢印は外れ値を示しています。 上記は外れ値を決定するために一般的に使用される簡単な方法です。以下は、外れ値を検出するためのより複雑なアルゴリズムです。内容が多岐にわたるため、ここでは中核となるアイデアのみを紹介します。興味のある方は、ご自身で詳しく学習してください。 この方法では、一般的に確率分布モデルを構築し、オブジェクトがモデルに適合する確率を計算し、確率の低いオブジェクトを外れ値として扱います。モデルがクラスターの集合である場合、異常はどのクラスターにも有意に属していないオブジェクトです。モデルが回帰である場合、異常は予測値から比較的遠いオブジェクトです。 外れ値の確率的定義:外れ値とは、データの確率分布モデルに関して確率が低いオブジェクトです。この状況の前提は、データ セットがどのような分布に従うかを知る必要があるということです。推定が間違っていると、裾が重い分布になります。 たとえば、特徴エンジニアリングにおける RobustScaler メソッドは、データ特徴の分位分布を使用して、データ特徴値をスケーリングするときに、分位数に応じてデータを複数のセグメントに分割し、スケーリングには中間のセグメントのみを使用します。たとえば、25% 分位数から 75% 分位数までのデータのみがスケーリングされます。これにより、異常なデータの影響が軽減されます。 長所と短所:
統計的手法では、データの分布を利用して外れ値を観察します。一部の手法では、特定の分布条件が要求されます。ただし、実際には、データの分布が特定の想定条件を満たすことは難しく、使用には一定の制限があります。 データ セットの統計分布を決定するよりも、データ セットの意味のある近接度を測定する方が簡単です。このアプローチは、オブジェクトの外れ値スコアが k 近傍 (KNN) までの距離によって与えられるため、統計的手法よりも汎用的で使いやすいです。 外れ値スコアは k の値に非常に敏感であることに注意してください。 k が小さすぎると、隣接する外れ値の数が少ないために外れ値スコアが低くなる可能性があります。一方、K が大きすぎると、k ポイント未満のクラスター内のすべてのオブジェクトが外れ値になる可能性があります。 k の選択に対してこの方式をより堅牢にするために、k 個の最近傍点の平均距離を使用することができます。 長所と短所:
密度ベースの観点から見ると、外れ値は密度の低い領域にあるオブジェクトです。密度は近接性の観点から定義されることが多いため、密度ベースの外れ値検出は近接性ベースの外れ値検出と密接に関連しています。密度を定義する一般的な方法は、k 個の最も近い近傍までの平均距離の逆数として定義することです。この距離が短い場合、密度は高くなります。逆もまた同様です。別の密度定義は、DBSCAN クラスタリング アルゴリズムで使用されるもので、オブジェクトの周囲の密度は、オブジェクトの指定された距離 d 内にあるオブジェクトの数に等しくなります。 長所と短所:
クラスターベースの外れ値:オブジェクトがどのクラスターにも強く属していない場合、そのオブジェクトはクラスターベースの外れ値です。 外れ値が初期クラスタリングに与える影響:クラスタリングによって外れ値が検出された場合、外れ値はクラスタリングに影響を与えるため、構造が有効かどうかという疑問が生じます。これは、外れ値に敏感な k-means アルゴリズムの欠点でもあります。この問題に対処するには、オブジェクトをクラスタ化し、外れ値を削除し、再度オブジェクトをクラスタ化するという方法を使用できます (最適な結果が得られるとは限りません)。 長所と短所:
実は、上記で述べたクラスタリング手法の本来の目的は、外れ値を見つけることではなく、教師なし分類です。たまたまその機能が外れ値の検出を実現できるだけであり、これは派生機能とみなすことができます。 上記の方法に加えて、外れ値を検出するために特によく使用される 2 つの方法があります。One Class SVM と Isolation Forest です。詳細についてはここでは詳しく説明しません。 外れ値が検出されたので、処理する必要があります。外れ値を処理する一般的な方法は、おおよそ次のカテゴリに分けられます。
外れ値を削除するかどうかは、実際の状況に基づいて決定できます。一部のモデルは外れ値に対してあまり敏感ではないため、外れ値があってもモデルの効果には影響しません。ただし、ロジスティック回帰 LR などの一部のモデルは外れ値に対して非常に敏感です。これらを処理しないと、過剰適合などの非常に悪い結果が発生する可能性があります。 以上が外れ値の検出と処理方法の概要です。 いくつかの検出方法で外れ値を見つけることはできますが、その結果は絶対的に正しいわけではありません。具体的な状況は、ビジネスに対する理解に基づいて判断する必要があります。同様に、外れ値をどのように扱うか、削除するか、修正するか、あるいは扱わないかについても、実際の状況に応じて検討する必要があり、決まったルールはありません。 |
<<: 2018 CCF BDCIコンペティションのグローバルローンチ:データ駆動型、スマートな未来
>>: 戦争の太鼓はすでに鳴り響いています。人工知能に関して、あなたはどちらの陣営に属しますか?
技術の急速な発展により、プログラミング言語は現代社会に欠かせないものになりました。ウェブサイト開発、...
ヘルスケアにおける AI 自動化とは、ヘルスケア業界におけるプロセスを合理化し、患者ケアを改善し、運...
デジタル革新が主流の時代において、ディープフェイク動画の増加は広く懸念されるようになっている。ディー...
現代の AI システムは、試験に向けて熱心に勉強する学生のように、画像内の物体を識別したり、タンパク...
ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる...
編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)次世代のス...
9月24日、中国聯通の「ネットワークAIフォーラム」が北京で開催された。フォーラムは5GとAI技術の...
近年、自然言語処理における事前トレーニングは研究分野でホットな話題となっており、有名なGPT-3も新...
[[311550]] [51CTO.com クイック翻訳] 人工知能は最新の開発トレンドであり、その...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
かつて私たちは、コンピューターがどれだけ強力であっても、未来を予測するには不十分であると考えていまし...
人々は「ソフトウェア 2.0」の時代に入りつつあります。人工知能、ディープラーニング、機械学習、高度...