機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られていますか?

簡単に言えば、ラベル漏洩またはターゲット漏洩は、予測したい情報がトレーニング データセットに直接的または間接的に現れるときに発生します。 これにより、モデルの一般化エラーが誇張され、モデルのパフォーマンスが大幅に向上しますが、実際のアプリケーションではモデルは役に立ちません。

[[343849]]

データ侵害はどのようにして起こるのか

最も単純な例は、ラベル自体を使用してモデルをトレーニングすることです。 実際には、データの収集と準備中に、ターゲット変数の間接的な表現が誤って導入されることがあります。 ターゲット変数の成果と直接的な結果をトリガーする機能は、データ マイニング プロセス中に収集されるため、探索的データ分析を実行するときに手動で識別する必要があります。

データ侵害の主な兆候は、「信じられないほど良い」モデルです。 このモデルは優れたモデルではないため、予測期間中のパフォーマンスは低下する可能性が高くなります。

データ漏洩は、ラベルの間接的な表現としてのトレーニング機能を通じてのみ発生するわけではありません。 また、検証データまたはテストデータの一部の情報がトレーニングデータに保持されていたり、将来の履歴が使用されていたりする可能性もあります。

ラベル漏洩問題の例

個人が関連付けられている銀行口座の特性に基づいて、その人が銀行口座を開設するかどうかを予測する

顧客離脱予測の問題では、「インタビュアー」と呼ばれる機能が、顧客が離脱するかどうかを最もよく示す指標であることが判明しました。 モデルのパフォーマンスが低い理由は、顧客が解約の意思を確認した後にのみ、この「インタビュアー」に調査員が割り当てられるためです。

ラベル漏れへの対処方法

1. ランダム性を取り除くか、ノイズを追加して、滑らかにできるランダム性を導入する

2. クロス検証を使用するか、検証セットを使用して、未知のインスタンスでモデルをテストしてください。

3. データセット全体をスケーリングまたは変換する代わりに、パイプライン処理を使用します。 最小最大スケーラーを使用するなど、提供されたデータセット全体に基づいて機能がスケールダウンされ、トレーニングとテストの分割が適用されると、最小値と最大値にはデータセット全体の最大値が使用されるため、スケールされたテスト セットにはスケールされたトレーニング機能の情報も含まれます。 したがって、ラベルの漏れを防ぐために、常にパイプを使用することをお勧めします。

4. ホールドアウト データでモデルをテストし、パフォーマンスを評価します。 これは、正しい方法論を使用してプロセス全体を再度実行する必要があるため、インフラストラクチャ、時間、リソースの点で最もコストのかかる方法です。

要約する

データ漏洩は最も一般的な間違いの 1 つであり、特徴エンジニアリング、時系列の使用、ラベル付きデータセット、およびトレーニング セットを介した検証情報の巧妙な受け渡しで発生する可能性があります。重要なのは、機械学習モデルは連絡先情報が利用可能な場合にのみ予測を行うということです。したがって、機能を慎重に選択し、変換を適用する前にデータを分割し、検証セットに変換を当てはめないようにし、パイプラインを使用することが賢明です。

<<:  未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。

>>:  Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

推薦する

Spring Boot 3.2フレームワークはほぼ完成、VMWareは利用が大幅に増加したと主張

ティム・アンダーソン編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:...

人工知能で最前線の医療従事者を守る

私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...

...

優秀なプログラマーが開発効率を上げるために知っておくべき32のアルゴリズム

検索アルゴリズム - 指定された開始点から指定された終了点までのパスを計算するグラフ検索アルゴリズム...

超便利!追加のコードを書かずに依存性注入の5つの原則をマスターする

この概念に初めて遭遇した場合、一瞬理解できないかもしれません。インターネット上のさまざまな説明により...

これは機械学習ツールに関する最も包括的なハンドブックかもしれません。

[[419906]]私はこれまで、人工知能とデータサイエンスのオープンソース プロジェクトを数多く...

OpenAIのSora、中国は追いつけないのか?

春節の時期にOpenAIのSoraが大人気でした。私も見てみましたが、正直GPT4が出た時ほどの衝撃...

2021年:AIが普及する年

リン・ジエル科学技術の継続的な進歩と発展に伴い、人工知能の発展は時代の必然的な流れであり、我が国の経...

脚付きロボットの新たなスキル:ANYmalは山登りを学んでいる

ロボット工学の研究者がここ数年で脚付きロボットで成し遂げたことは実に驚くべきことだ。昨年7月、オレゴ...

CMU と Adob​​e が協力: GAN モデルは事前トレーニングの時代を先導し、トレーニング サンプルのわずか 1% しか必要としません

事前トレーニングの時代に入ってから、視覚認識モデルのパフォーマンスは急速に向上しましたが、生成的敵対...

滴滴出行はオペレーションズリサーチ分野の最高賞であるワグナー優秀実践賞を受賞した初の中国企業となる。

2019年INFORMS年次総会が米国時間10月20日から23日までシアトルで開催されました。同総...

百度技術研究所は、繁栄するテクノロジーエコシステムを促進するために一般に門戸を開放します

百度は4月28日、「世界に知恵を、未来に人材を育成」をテーマに百度技術研究所の開所式を開催し、もとも...

AI の可能性を最大限に引き出す: 企業での導入を成功させる 5 つの鍵

ビジネスとテクノロジーに関心のある人なら誰でも、AI がすでに業界や日常生活に大きな変化をもたらして...

清華大学のAI学生が顔を見せて歌う、この応用は将来に期待される

最近、清華大学初のAI学生がついにその本性を現した。伝えられるところによると、彼の名前は華志兵。清華...