データセットをトレーニング セットに分割すると、モデルを理解するのに役立ちます。これは、モデルが新しい未知のデータにどのように一般化されるかを理解するために重要です。 モデルが過剰適合されている場合、新しい未知のデータにうまく一般化されない可能性があります。したがって、正確な予測を行うことは不可能です。 適切な検証戦略を持つことは、優れた予測を作成し、AI モデルのビジネス価値を活用するための第一歩です。この記事では、一般的なデータ分割戦略をいくつか紹介します。 シンプルなトレーニングとテストの分割データセットはトレーニングと検証の 2 つの部分に分かれており、80% がトレーニング用、20% が検証用です。 これを行うには、Scikit のランダム サンプリングを使用できます。 まず、ランダム シードを修正する必要があります。そうしないと、比較して同じデータ分割を取得できず、デバッグ中に結果を再現できなくなります。 データセットが小さい場合、検証分割がトレーニング分割と相関しないという保証はありません。データのバランスが取れていない場合、同じ分割比率を得ることはできません。 したがって、単純な分割は開発とデバッグにのみ役立ちますが、実際のトレーニングは十分に完璧ではありません。そのため、次の分割方法がこれらの問題の解決に役立ちます。 K 分割交差検証データセットを k 個のパーティションに分割します。 下の画像では、データセットは 5 つのパーティションに分割されています。 1 つのパーティションが検証データセットとして選択され、他のパーティションはトレーニング データセットとして選択されます。これにより、異なるパーティションのセットごとにモデルがトレーニングされます。 最終的に、K 個の異なるモデルが取得され、これらのモデルは統合された方法を使用して、その後の推論と予測に一緒に使用されます。 Kは通常[3,5,7,10,20]に設定されます。 低いバイアスでモデルのパフォーマンスを確認したい場合は、より高いKを使用します[20]。変数選択のためのモデルを構築する場合は、低いk [3,5]を使用するとモデルの分散が低くなります。 アドバンテージ:
質問:
階層化kFold各折り畳み内の異なるクラス間の比率は維持できます。データセットが不均衡な場合、たとえば、Class1 には 10 個の例があり、Class2 には 100 個の例があります。 Stratified-kFoldによって作成された各妥協分類の比率は、元のデータセットと同じである。 考え方は K 分割交差検証に似ていますが、各分割の比率は元のデータセットと同じです。 クラス間の初期比率は各分析で保持できます。データセットが大きい場合、K 分割交差検証でも比率が保持される可能性がありますが、これは確率的です。一方、Stratified-kFold は決定論的であり、小さなデータセットに使用できます。 ブートストラップとサブサンプリングブートストラップとサブサンプリングは K 分割クロス検証に似ていますが、固定された分割はありません。データセットからランダムにデータを選択し、他のデータを検証として使用してn回繰り返します。 ブートストラップ = 交互サンプリング。これについては以前の記事で詳しく紹介しました。 いつ使うのですか?ブートストラップとサブサンプリングは、推定メトリックの標準誤差が大きい場合にのみ使用する必要があります。これはデータセット内の外れ値が原因である可能性があります。 要約する通常、機械学習では、k 分割交差検証が最初に使用されます。データセットが不均衡な場合は、Stratified-kFold が使用されます。外れ値が多い場合は、Bootstrap などの方法を使用してデータ分析を改善できます。 |
<<: 5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用
>>: ユビキタス「AI+」人工知能はこのように私たちの生活を変える
COVID-19の影はまだ消えていないが、今年のプレミアリーグの試合の最初の週末は珍しい「好天」を...
入力がキーボードに別れを告げ、音声、表現、動作が入力方法になると、どのような魔法のような体験になるの...
人工知能は、人間の生活に強固な物質的基盤を築くだけでなく、より多くの人々を単純で退屈な反復作業から解...
概要: 顔認識を実現するための 1 行のコード、1. まず、システムに認識させたいすべての人の写真が...
[[263741]]自動運転は短期間で実現できるのか?数年前なら、大手各社はおそらく肯定的な答えを...
チャットボットの無限ループや同じ質問の繰り返しにイライラしていませんか? これは顧客にとってよくある...
3月2日のニュースによると、数秒以内にニュース記事を生成することは、メディア業界にとって確かに非常に...
顔認識にはリスクがあり、米国は全面的に禁止しているが、なぜ中国はこれほど広く推進しているのだろうか?...
ここで、AI がビジネスとマーケティングの未来をどのように形作っていくのかを見てみましょう。有名な諺...
12月19日、デンマーク工科大学のスニ・レーマン・ヨルゲンセン氏と彼のチームは、保険業界で使用されて...
ディープラーニングの研究者として、私はモデルのトレーニングに深く悩まされています。モデルを何日も何晩...
ディープラーニングはパラメータが多すぎる、モデルが大きすぎる、展開が不便、そしてコンピューティングリ...