データ サイエンスと機械学習の分野では、多くのモデルはデータが正規分布していると想定しているか、データが正規分布していると想定した方がパフォーマンスが向上すると想定しています。たとえば、線形回帰では残差が正規分布していると仮定し、線形判別分析 (LDA) は正規分布などの仮定に基づいて導出されます。 したがって、データ サイエンティストや機械学習の専門家にとって、データの正規性をテストする方法を理解することは非常に重要です。 この記事では、データ正規性をテストするための 11 の基本的な方法を紹介します。これにより、読者はデータ分布の特性と分析に適切な方法を適用する方法をより深く理解し、機械学習とデータ モデリングのプロセスでデータ分布がモデルのパフォーマンスに与える影響をより適切に処理できるようになります。 プロット方法1.QQプロットQQ プロット (Quantile-Quantile Plot) は、データ分布が正規分布に準拠しているかどうかをテストするために使用される一般的な方法です。 QQ プロットでは、データの分位数が標準正規分布の分位数と比較されます。データ分布が正規分布に近い場合、QQ プロット上の点はほぼ直線上に並びます。 次のサンプル コードは、QQ プロットを示すために、正規分布に従うランダム データ セットを生成します。コードを実行すると、QQ プロットとそれに対応する正規分布曲線が表示されます。グラフ上の点の分布を観察することで、データが正規分布に近いかどうかを事前に判断できます。 2. KDE プロットKDE (カーネル密度推定) プロットは、データ分布を視覚化する方法であり、データの正規性を検出するのに役立ちます。 KDE プロットでは、データの密度が推定され、滑らかな曲線としてプロットされるため、データの分布形状を観察するのに役立ちます。 次のサンプル コードは、KDE プロットを示すために、正規分布に従うランダム データ セットを生成します。コードを実行すると、KDE プロットと対応する正規分布曲線が表示され、視覚化によってデータ分布の正規性を検出できます。 3. ヴァイオリン・プロットバイオリン プロットを観察することで、データの分布形状を見つけ、データが正規分布に近いかどうかを予備的に判断できます。バイオリン プロットがベル曲線のような形をしている場合、データはおそらくほぼ正規分布しています。バイオリン プロットが極端に歪んでいたり、複数のピークがあったりする場合は、データが正規分布していない可能性があります。 次のサンプル コードは、正規分布に従うランダム データ セットを生成し、Violin Plot を示します。コードを実行すると、Violin Plot とそれに対応する正規分布曲線が表示されます。視覚化により、データ分布の形状を検出し、データが正規分布に近いかどうかを事前に判断できます。 4.ヒストグラムヒストグラムを使用してデータ分布の正規性を検出することも一般的な方法です。ヒストグラムは、データの分布を直感的に理解し、データが正規分布に近いかどうかを事前に判断するのに役立ちます。 ヒストグラムが上の図に示すようにベル型曲線に近似し、対応する正規分布曲線と形状が似ている場合、データはおそらく正規分布に従っています。もちろん、可視化はあくまでも予備的な判断に過ぎず、より正確な検出が必要な場合は、正規性検定などの統計的手法を用いて分析することができます。 統計的手法5. シャピロ・ウィルク検定これは、データが正規分布を満たしているかどうかをテストするために使用される統計手法であり、W テストとも呼ばれます。 Shapiro-Wilk テストを実行するときは、通常、次の 2 つの主な指標に注目します。
したがって、統計量 W が 1 に近く、P 値が 0.05 より大きい場合、観測データは正規分布を満たしていると結論付けることができます。 次のコードでは、まず正規分布に従うランダム データ セットが生成され、次に Shapiro-Wilk テストが実行されて検定統計量と P 値が取得されます。 P 値を有意水準と比較することで、サンプル データが正規分布から得られたものかどうかを判断できます。 6.KS検査KS テスト (コルモゴロフ-スミルノフ テスト) は、データが特定の分布 (正規分布など) に準拠しているかどうかをテストするために使用される統計手法です。特定の理論分布の累積分布関数 (CDF) 間の最大差を測定することで、観測データが同じ分布からのものであるかどうかを評価します。基本的な手順は次のとおりです。
Python で KS テストを使用してデータが正規分布に準拠しているかどうかをテストする場合は、Scipy ライブラリの kstest 関数を使用できます。以下は、Python を使用して KS テストを実行し、データが正規分布に準拠しているかどうかをテストする方法を示した簡単な例です。 7. アンダーソン・ダーリング検定アンダーソン・ダーリング検定は、データが正規分布などの特定の分布から来ているかどうかを検定するために使用される統計手法です。これは、分布の末端における観測値の差に特に重点を置いているため、極端な値からの逸脱を検出するのに非常に効果的です。 次のコードは、stats.anderson 関数を使用して Anderson-Darling テストを実行し、テスト統計量、臨界値、および有意水準を取得します。次に、統計値と臨界値の比較に基づいて、サンプル データが正規分布からのものであるかどうかを判断できます。 8. リリーフォーステストリリーフォース検定 (コルモゴロフ-スミルノフ-リリーフォース検定とも呼ばれる) は、データが正規分布に従うかどうかを検定する統計検定です。これは、特に小規模なサンプル サイズ向けに設計されたコルモゴロフ-スミルノフ検定のバリエーションです。 KS テストとは異なり、Lilliefors テストではデータの分布タイプに関する仮定は必要ありません。観測されたデータが正規分布から来ているかどうかを評価します。 次の例では、lilliefors 関数を使用して Lilliefors テストを実行し、テスト統計量と P 値を取得します。 P 値を有意水準と比較することで、サンプル データが正規分布から得られたものかどうかを判断できます。 9. 距離測定距離測定は、データの正規性をテストするための効果的な方法であり、観測されたデータ分布と参照分布の違いをより直感的に比較する方法を提供します。 以下に、一般的な距離測定と、正規性のテストにおけるその使用法を示します。 (1)バッタチャリヤ距離:
(2)「ヘリンガー距離」
(3)KLダイバージェンス:
これらの距離測定は、観測された分布を複数の参照分布と比較し、データの正規性をより適切に評価するのに役立ちます。観測された分布との距離が最小となる参照分布を選択することで、データが正規分布からのものであるかどうかをより正確に判断できます。 |
<<: Google の最新 AI モデル「Gemini」について知っておくべきことすべて
今日まで、『ゲーム・オブ・スローンズ』の最終シーズンに失望していたかもしれません。しかし、AI にま...
最近の多くの研究では、主に人工知能や自動化における技術の進歩が、男性よりも女性の雇用に大きな影響を与...
マイクロソフトはOpenAI LPの半分以下を所有していると言われているが、それでもパワーは劣るがよ...
人工知能 (AI) が医療分野において大きなチャンスと潜在的なリスクを抱えていることはよく知られてい...
[制作|網易智能計画/ 翻訳|炳漢]昨年3月、囲碁が打てる「AlphaGo」が人工知能を一躍有名にし...
「無力で、自分のやりたいことができない」。これは、世界一の囲碁プレイヤーである柯潔氏が4月27日に...
過去 10 年間で、自然言語処理の分野は、単純なニューラル ネットワーク計算と大規模なトレーニング ...
どのような AI テクノロジーが人気があり、人間の生活に影響を与えるでしょうか? [[398271]...
[[315538]]米国では無人タクシーの試験と導入が進み、SFで描かれた無人運転のシナリオが徐々...
自己教師あり学習 (SSL) は近年大きな進歩を遂げており、多くの下流タスクにおいて教師あり学習法の...
[[252987]] AIは徐々に成熟し、さまざまな産業に導入され、人々の生活を微妙に変えています。...
「人工知能は子供のようなものです。継続的なトレーニング、調整、育成を通じて、その「IQ」はますます高...
質問: 下の画像は AI によって生成された画像ですか、それとも写真ですか?この質問をしなければ、ほ...