優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られていますか? 簡単に言えば、ラベル漏洩またはターゲット漏洩は、予測したい情報がトレーニング データセットに直接的または間接的に現れるときに発生します。 これにより、モデルの一般化エラーが誇張され、モデルのパフォーマンスが大幅に向上しますが、実際のアプリケーションではモデルは役に立ちません。
データ侵害はどのようにして起こるのか 最も単純な例は、ラベル自体を使用してモデルをトレーニングすることです。 実際には、データの収集と準備中に、ターゲット変数の間接的な表現が誤って導入されることがあります。 ターゲット変数の成果と直接的な結果をトリガーする機能は、データ マイニング プロセス中に収集されるため、探索的データ分析を実行するときに手動で識別する必要があります。 データ侵害の主な兆候は、「信じられないほど良い」モデルです。 このモデルは優れたモデルではないため、予測期間中のパフォーマンスは低下する可能性が高くなります。 データ漏洩は、ラベルの間接的な表現としてのトレーニング機能を通じてのみ発生するわけではありません。 また、検証データまたはテストデータの一部の情報がトレーニングデータに保持されていたり、将来の履歴が使用されていたりする可能性もあります。 ラベル漏洩問題の例 個人が関連付けられている銀行口座の特性に基づいて、その人が銀行口座を開設するかどうかを予測する 顧客離脱予測の問題では、「インタビュアー」と呼ばれる機能が、顧客が離脱するかどうかを最もよく示す指標であることが判明しました。 モデルのパフォーマンスが低い理由は、顧客が解約の意思を確認した後にのみ、この「インタビュアー」に調査員が割り当てられるためです。 ラベル漏れへの対処方法 1. ランダム性を取り除くか、ノイズを追加して、滑らかにできるランダム性を導入する 2. クロス検証を使用するか、検証セットを使用して、未知のインスタンスでモデルをテストしてください。 3. データセット全体をスケーリングまたは変換する代わりに、パイプライン処理を使用します。 最小最大スケーラーを使用するなど、提供されたデータセット全体に基づいて機能がスケールダウンされ、トレーニングとテストの分割が適用されると、最小値と最大値にはデータセット全体の最大値が使用されるため、スケールされたテスト セットにはスケールされたトレーニング機能の情報も含まれます。 したがって、ラベルの漏れを防ぐために、常にパイプを使用することをお勧めします。 4. ホールドアウト データでモデルをテストし、パフォーマンスを評価します。 これは、正しい方法論を使用してプロセス全体を再度実行する必要があるため、インフラストラクチャ、時間、リソースの点で最もコストのかかる方法です。 要約する データ漏洩は最も一般的な間違いの 1 つであり、特徴エンジニアリング、時系列の使用、ラベル付きデータセット、およびトレーニング セットを介した検証情報の巧妙な受け渡しで発生する可能性があります。重要なのは、機械学習モデルは連絡先情報が利用可能な場合にのみ予測を行うということです。したがって、機能を慎重に選択し、変換を適用する前にデータを分割し、検証セットに変換を当てはめないようにし、パイプラインを使用することが賢明です。 |
<<: 未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。
>>: Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能
Metaによれば、AI Research SuperCluster(RSC)は企業がより優れたAI...
少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
AI コンテンツ分析は、ビデオで取り上げられているトピックや、ビデオ内の登場人物が表現した感情を識別...
テスラのロボットが服を畳むという現象が、今、大流行している。数日後、マスク氏はオプティマスプライムが...
人工知能が IT 組織に与える影響を検討する場合は、まず自分の仕事から始めるとよいでしょう。あなたが...
11月3日、Google ResearchとDeepMindは最新の気象モデルMetNet-3を共同...
[[425896]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
医用画像診断における人工知能(AI)の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
法曹界は、統計学や数学に関しては常に比較的消極的でした。伝統的に、彼らの意見は長年、あるいは数十年に...