データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要

データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要

データセットをトレーニング セットに分割すると、モデルを理解するのに役立ちます。これは、モデルが新しい未知のデータにどのように一般化されるかを理解するために重要です。 モデルが過剰適合されている場合、新しい未知のデータにうまく一般化されない可能性があります。したがって、正確な予測を行うことは不可能です。

適切な検証戦略を持つことは、優れた予測を作成し、AI モデルのビジネス価値を活用するための第一歩です。この記事では、一般的なデータ分割戦略をいくつか紹介します。

シンプルなトレーニングとテストの分割

データセットはトレーニングと検証の 2 つの部分に分かれており、80% がトレーニング用、20% が検証用です。 これを行うには、Scikit のランダム サンプリングを使用できます。

まず、ランダム シードを修正する必要があります。そうしないと、比較して同じデータ分割を取得できず、デバッグ中に結果を再現できなくなります。 データセットが小さい場合、検証分割がトレーニング分割と相関しないという保証はありません。データのバランスが取れていない場合、同じ分割比率を得ることはできません。

したがって、単純な分割は開発とデバッグにのみ役立ちますが、実際のトレーニングは十分に完璧ではありません。そのため、次の分割方法がこれらの問題の解決に役立ちます。

K 分割交差検証

データセットを k 個のパーティションに分割します。 下の画像では、データセットは 5 つのパーティションに分割されています。

1 つのパーティションが検証データセットとして選択され、他のパーティションはトレーニング データセットとして選択されます。これにより、異なるパーティションのセットごとにモデルがトレーニングされます。

最終的に、K 個の異なるモデルが取得され、これらのモデルは統合された方法を使用して、その後の推論と予測に一緒に使用されます。

Kは通常[3,5,7,10,20]に設定されます。

低いバイアスでモデルのパフォーマンスを確認したい場合は、より高いKを使用します[20]。変数選択のためのモデルを構築する場合は、低いk [3,5]を使用するとモデルの分散が低くなります。

アドバンテージ:

  • モデル予測を平均化することで、同じ分布から抽出された未知のデータに対するモデルのパフォーマンスを向上させることができます。
  • これは、優れた生産モデルを取得するために広く使用されているアプローチです。
  • さまざまなアンサンブル手法を使用して各データ セットの予測を作成し、これらの予測を使用してモデルを改善することができます。これを OOF (アウトフォールド予測) と呼びます。

質問:

  • 不均衡なデータセットがある場合は、Stratified-kFold を使用します。
  • すべてのデータセットでモデルを再トレーニングした場合、そのパフォーマンスを k-Fold を使用してトレーニングされたモデルと比較することはできません。このモデルはデータセット全体ではなく、k-1 でトレーニングされているためです。

階層化kFold

各折り畳み内の異なるクラス間の比率は維持できます。データセットが不均衡な場合、たとえば、Class1 には 10 個の例があり、Class2 には 100 個の例があります。 Stratified-kFoldによって作成された各妥協分類の比率は、元のデータセットと同じである。

考え方は K 分割交差検証に似ていますが、各分割の比率は元のデータセットと同じです。

クラス間の初期比率は各分析で保持できます。データセットが大きい場合、K 分割交差検証でも比率が保持される可能性がありますが、これは確率的です。一方、Stratified-kFold は決定論的であり、小さなデータセットに使用できます。

ブートストラップとサブサンプリング

ブートストラップとサブサンプリングは K 分割クロス検証に似ていますが、固定された分割はありません。データセットからランダムにデータを選択し、他のデータを検証として使用してn回繰り返します。

ブートストラップ = 交互サンプリング。これについては以前の記事で詳しく紹介しました。

いつ使うのですか?ブートストラップとサブサンプリングは、推定メトリックの標準誤差が大きい場合にのみ使用する必要があります。これはデータセット内の外れ値が原因である可能性があります。

要約する

通常、機械学習では、k 分割交差検証が最初に使用されます。データセットが不均衡な場合は、Stratified-kFold が使用されます。外れ値が多い場合は、Bootstrap などの方法を使用してデータ分析を改善できます。

<<:  5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

>>:  ユビキタス「AI+」人工知能はこのように私たちの生活を変える

ブログ    
ブログ    

推薦する

AIによる自動思考の隠れたコストについて

[[273454]]多くの薬と同様に、精神を明晰に保つために特に使用される薬であるモダフィニルには、...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT は、企業の神経系と考えることができます。つまり、生産工場のあらゆる場所から貴重な情報...

フランスのヒューマノイド ロボット Reachy は、オープン ソース + モジュール式で、最も複雑な Raspberry Pi ロボットの 1 つです。

Raspberry Pi は、小さなおもちゃの車から産業用ロボットアームに至るまで、あらゆるものに...

...

周洪義:汎用人工知能は詐欺であり、垂直分野と組み合わせる必要がある

3月23日、360テクノロジー株式会社と華泰聯合証券はIPO上場指導契約を締結した。これは360がI...

Appleは、生成AIをiPhone上でローカルに実行できるようにするために、より多くの人材を採用している。

8月6日、今年初めから、生成型人工知能への熱狂がテクノロジー業界全体を席巻しているというニュースが...

中国は人工知能(AI)で世界をリードしており、多くの技術が世界をリードしている。

[[217124]] [[217125]] [[217126]]ディープラーニングは最も急速に成長...

GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

学生が AI を使用して「不正行為」を行うことが許可された場合、成績分布はどのように変化するでしょう...

...

自動運転の実用化にはまだいくつかのハードルがある

ここ数年、世界的な自動運転はまだ発展途上であったとすれば、各国の政策の推進により、自動運転に関する最...

人工知能の登場により、私たちは仕事を維持できるのでしょうか?

週末にニュースを見て衝撃を受けました。Google は最近、同社が開発したロボット (AI) システ...

将来は知能ロボットが農業を担う

果物の収穫から雑草の除去まで、ロボットは精密農業で大きな成果を上げています。農家は常に熱心なデータ収...

欧州が世界クラスの人工知能研究機関を建設へ

英国の「ガーディアン」ウェブサイトは、この新しい研究所を設立した理由は、欧州原子核研究機構を設立した...

2019年のトップ10テクノロジートレンドは刺激的だ

2019年もすでに半分が過ぎました。今年上半期のテクノロジー業界の目覚ましい成果は何でしょうか?今日...