8つの一般的な確率分布の式と視覚化

8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財務データなど)。 これは、場合によっては、データの特性を記述できる数学関数を通じて自然をシミュレートするのに役立つ方法を開発できたことを意味します。

「確率分布は、実験においてさまざまな結果が発生する確率を与える数学的関数です。」

データの分布を理解することは、私たちの周りの世界をより適切にモデル化するのに役立ちます。 さまざまな結果の可能性を判断したり、イベントの変動性を推定したりするのに役立ちます。 これらすべてにより、さまざまな確率分布を理解することは、データ サイエンスと機械学習において非常に価値のあるものになります。

この記事では、いくつかの一般的な分布を紹介し、Python コードを通じて視覚化して直感的に示します。

均等配分

最も単純な分布は均一分布です。 一様分布は、すべての結果が等しく起こる確率分布です。 たとえば、公平にサイコロを振った場合、どの数字が出るかの確率は 1/6 です。 これは離散一様分布です。

しかし、すべての一様分布が離散的であるわけではなく、連続的である場合もあります。 指定された範囲内で任意の実用的な値を取ることができます。 a と b の間の連続一様分布の確率密度関数 (PDF) は次のように表されます。

Python でエンコードする方法を見てみましょう。

 numpyをnp としてインポートする
matplotlib.pyplot plt としてインポートします
scipy から統計をインポート
# 連続の場合
0 = 0 です
50 です
サイズ= 5000
X_continuous = np . linspace ( a , b , サイズ)
連続均一= 統計. 均一( 位置= aスケール= b )
連続ユニフォームpdf = 連続ユニフォーム.pdf ( X_連続)
# 離散の場合
X_discrete = np . arange ( 1 , 7 )
discrete_uniform = 統計.randint ( 1,7 )
discrete_uniform_pmf = discrete_uniform . pmf ( X_discrete )
# 両方の表をプロットする
figax = plt.subplots ( nrows = 1ncols = 2figsize = ( 15、5 ) )
# 離散プロット
ax [ 0 ]. bar ( X_discretediscrete_uniform_pmf ) の座標
ax [ 0 ] .set_xlabel ( "X" )
ax [ 0 ] .set_ylabel ( "確率" )
ax [ 0 ] .set_title ( "離散一様分布" )
# 連続プロット
ax [ 1 ]. プロット( X_連続連続均一pdf )
ax [ 1 ] .set_xlabel ( "X" )
ax [ 1 ] .set_ylabel ( "確率" )
ax [ 1 ]. set_title ( "連続一様分布" )
plt . 表示()

ガウス分布

ガウス分布はおそらく最もよく聞かれ、よく知られている分布です。 この分布にはいくつかの名前があります。確率プロットが鐘のように見えることからベル曲線と呼ぶ人もいれば、最初にこの分布を説明したドイツの数学者カール・ガウスにちなんでガウス分布と呼ぶ人もいます。また、初期の統計学者がこの分布が何度も​​繰り返されることに気づいたことから正規分布と呼ぶ人もいます。

正規分布の確率密度関数は次のようになります。

σ は標準偏差、μ は分布の平均です。 正規分布では、平均、最頻値、中央値がすべて等しいことに注意してください。

正規分布するランダム変数をプロットすると、曲線は平均を中心に対称になり、値の半分は中心の左側にあり、残りの半分は中心の右側にあります。 そして、曲線の下の合計面積は 1 です。

 ミュー= 0
分散= 1
シグマ= np . sqrt ( 分散)
x = np . linspace ( mu - 3 * sigma , mu + 3 * sigma , 100 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( xstats . norm . pdf ( xmusigma ))
plt . title ( "正規分布" )
plt . 表示()

正規分布の場合。 経験則によれば、データの割合は平均値から一定数の標準偏差の範囲内に収まります。 これらの割合は次のとおりです。

  • データの 68% が平均値の 1 標準偏差以内に収まります。
  • データの 95% は平均値の 2 標準偏差以内に収まります。
  • データの 99.7% は平均値の 3 標準偏差以内に収まります。

対数正規分布

対数正規分布は、対数が正規分布するランダム変数の連続確率分布です。 したがって、ランダム変数 X が対数正規分布する場合、Y = ln(X) は正規分布になります。

これは対数正規分布の PDF です。

対数正規分布するランダム変数は、正の実数値のみを取ります。 したがって、対数正規分布は右に歪んだ曲線を作成します。

Python でプロットしてみましょう:

 X = np . linspace ( 0 , 6 , 500 )
標準偏差= 1
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
figax = plt . subplots ( figsize = ( 85 ))
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=1" )
ax.set_xticks ( np.arange ( min ( X ), max ( X )))
標準偏差= 0.5
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=0.5" )
標準偏差= 1.5
平均= 1
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=1、σ=1.5" )
plt . title ( "対数正規分布" )
plt . 凡例()
plt . 表示()

ポアソン分布

ポアソン分布はフランスの数学者シモン・ドニ・ポアソンにちなんで名付けられました。 これは離散確率分布であり、有限数の結果を持つイベントをカウントすることを意味します。つまり、カウント分布です。 したがって、ポアソン分布は、指定された期間内にイベントが発生する可能性のある回数を示すために使用されます。

イベントが時間内に一定の割合で発生する場合、時間内にイベントの数 (n) を観測する確率はポアソン分布で表すことができます。 たとえば、カフェには平均して 1 分あたり 3 人の顧客が訪れるとします。 ポアソン分布を使用して、9 人の顧客が 2 分以内に到着する確率を計算できます。

確率質量関数の式は次のとおりです。

λ は時間単位あたりのイベント率です。この場合は 3 です。 k は発生回数です。この場合は 9 です。ここで Scipy を使用して確率計算を完了できます。

 scipy から統計をインポート
印刷( 統計. ポアソン. pmf ( k = 9mu = 3 ))
「」
0.002700503931560479
「」

ポアソン分布の曲線は正規分布に似ており、ラムダがピークを表します。

 X = 統計. ポアソン.rvs ( mu = 3サイズ= 500 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X密度= Trueエッジカラー= "black" )
plt . title ( "ポアソン分布" )
plt . 表示()

指数分布

指数分布は、ポアソン点過程におけるイベント間の時間の確率分布です。指数分布の確率密度関数は次のとおりです。

λ はレートパラメータであり、x はランダム変数です。

 X = np . linspace ( 0 , 5 , 5000 )
指数分布= 統計. 指数.pdf ( X位置= 0スケール= 1 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( X , 指数分布)
plt . title ( "指数分布" )
plt . 表示()

二項分布

二項分布は、実験の成功または失敗の確率と考えることができます。 これをコイン投げの確率と表現する人もいるかもしれません。

パラメータ n と p を持つ二項分布は、それぞれが「はい/いいえ」の質問をし、それぞれが成功または失敗というブール結果を持つ n 個の独立した実験のシーケンスにおける成功数の離散確率分布です。

本質的に、二項分布は 2 つのイベントの確率を測定します。 1 つのイベントが発生する確率は p で、他のイベントが発生する確率は 1-p です。

二項分布の式は次のとおりです。

視覚化コードは次のとおりです。

 X = np . ランダム. 二項分布( n = 1p = 0.5サイズ= 1000 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X )
plt . title ( "二項分布" )
plt . 表示()

スチューデントのt分布

スチューデントの t 分布 (または単に t 分布) は、サンプル サイズが小さく、母集団の標準偏差が不明な場合に、正規分布する母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。 これは、「学生」という仮名を使用していた英国の統計学者ウィリアム・シーリー・ゴセットによって開発されました。

PDFは次のとおりです。

n は自由度と呼ばれるパラメータで、「dof」と呼ばれることもあります。n の値が大きいほど、t 分布は正規分布に近くなります。

 Seaborn をSNS としてインポートする
scipy から統計をインポート
X1 = 統計. t . rvs ( 自由度= 1サイズ= 4 )
X2 = 統計. t . rvs ( 自由度= 3サイズ= 4 )
X3 = 統計. t . rvs ( df = 9サイズ= 4 )
plt . サブプロット( figsize = ( 8 , 5 ))
sns.kdeplot ( X1 , ラベル= "1自由度" )
sns . kdeplot ( X2ラベル= "3 dof" )
sns.kdeplot ( X3 , ラベル= "6自由度" )
plt . title ( "スチューデントのt分布" )
plt . 凡例()
plt . 表示()

カイ二乗分布

カイ二乗分布はガンマ分布の特殊なケースです。自由度が k の場合、カイ二乗分布は、いくつかの独立した標準正規乱数の k 乗の合計です。

PDFは次のとおりです。

これは、仮説検定や信頼区間の構築によく使用される一般的な確率分布です。

Python でいくつかのサンプルグラフを描いてみましょう。

 X = np . 範囲( 0 , 6 , 0.25 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt.plot ( X , stats.chi2.pdf ( X , df = 1 ), label = "1 dof" ) です
plt.plot ( X , stats.chi2.pdf ( X , df = 2 ), label = "2 dof" ) グラフプロット
plt.plot ( X , stats.chi2.pdf ( X , df = 3 ), label = "3 dof" ) グラフプロット
plt . title ( "カイ二乗分布" )
plt . 凡例()
plt . 表示()

データサイエンスには、統計と確率を適切に理解することが不可欠です。 この記事では、一般的でよく使用されるディストリビューションをいくつか紹介します。お役に立てば幸いです。


<<:  自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

>>:  あなたの AI は規制に対応できる準備ができていますか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

Github のデータサイエンスと機械学習のリポジトリ トップ 10

この記事では、データサイエンスと機械学習の愛好家にとって最も役立つ Github リポジトリをいくつ...

...

なぜソートするのですか?ソートアルゴリズムのパフォーマンスを向上させる方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

現代のストレージシステムの背後にある古典的なアルゴリズムを解釈する

アプリケーションによって処理されるデータの量は増加し続けています。データの増加は、ストレージ機能の拡...

2024年にワイヤレス技術が接続性、効率性、消費者体験をどのように向上させるか

2024 年には、ワイヤレス テクノロジーに多くの改善がもたらされ、接続性、効率性、消費者体験が向上...

TS と AI が出会うと何が起こるでしょうか?

人工知能は日々進歩しており、大規模な言語モデルはますます強力になっています。仕事に役立つ AI ツー...

人工知能が爆発的に進化しています。この「鉄の飯碗」を手に入れるための新しいガイドをぜひ保存してください!

近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...

MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

最高裁:コミュニティへの出入りの際の唯一の確認方法として顔認証を強制すべきではない

出典: @CCTVニュース【最高裁:顔認証は、居住コミュニティの入退出の唯一の確認方法として強制して...

相関ルール推奨アルゴリズムの原理と実装

相関ルールは、データ間の潜在的な関連性を発見するために使用されます。最も一般的なアプリケーションは、...