8つの一般的な確率分布の式と視覚化

8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財務データなど)。 これは、場合によっては、データの特性を記述できる数学関数を通じて自然をシミュレートするのに役立つ方法を開発できたことを意味します。

「確率分布は、実験においてさまざまな結果が発生する確率を与える数学的関数です。」

データの分布を理解することは、私たちの周りの世界をより適切にモデル化するのに役立ちます。 さまざまな結果の可能性を判断したり、イベントの変動性を推定したりするのに役立ちます。 これらすべてにより、さまざまな確率分布を理解することは、データ サイエンスと機械学習において非常に価値のあるものになります。

この記事では、いくつかの一般的な分布を紹介し、Python コードを通じて視覚化して直感的に示します。

均等配分

最も単純な分布は均一分布です。 一様分布は、すべての結果が等しく起こる確率分布です。 たとえば、公平にサイコロを振った場合、どの数字が出るかの確率は 1/6 です。 これは離散一様分布です。

しかし、すべての一様分布が離散的であるわけではなく、連続的である場合もあります。 指定された範囲内で任意の実用的な値を取ることができます。 a と b の間の連続一様分布の確率密度関数 (PDF) は次のように表されます。

Python でエンコードする方法を見てみましょう。

 numpyをnp としてインポートする
matplotlib.pyplot plt としてインポートします
scipy から統計をインポート
# 連続の場合
0 = 0 です
50 です
サイズ= 5000
X_continuous = np . linspace ( a , b , サイズ)
連続均一= 統計. 均一( 位置= aスケール= b )
連続ユニフォームpdf = 連続ユニフォーム.pdf ( X_連続)
# 離散の場合
X_discrete = np . arange ( 1 , 7 )
discrete_uniform = 統計.randint ( 1,7 )
discrete_uniform_pmf = discrete_uniform . pmf ( X_discrete )
# 両方の表をプロットする
figax = plt.subplots ( nrows = 1ncols = 2figsize = ( 15、5 ) )
# 離散プロット
ax [ 0 ]. bar ( X_discretediscrete_uniform_pmf ) の座標
ax [ 0 ] .set_xlabel ( "X" )
ax [ 0 ] .set_ylabel ( "確率" )
ax [ 0 ] .set_title ( "離散一様分布" )
# 連続プロット
ax [ 1 ]. プロット( X_連続連続均一pdf )
ax [ 1 ] .set_xlabel ( "X" )
ax [ 1 ] .set_ylabel ( "確率" )
ax [ 1 ]. set_title ( "連続一様分布" )
plt . 表示()

ガウス分布

ガウス分布はおそらく最もよく聞かれ、よく知られている分布です。 この分布にはいくつかの名前があります。確率プロットが鐘のように見えることからベル曲線と呼ぶ人もいれば、最初にこの分布を説明したドイツの数学者カール・ガウスにちなんでガウス分布と呼ぶ人もいます。また、初期の統計学者がこの分布が何度も​​繰り返されることに気づいたことから正規分布と呼ぶ人もいます。

正規分布の確率密度関数は次のようになります。

σ は標準偏差、μ は分布の平均です。 正規分布では、平均、最頻値、中央値がすべて等しいことに注意してください。

正規分布するランダム変数をプロットすると、曲線は平均を中心に対称になり、値の半分は中心の左側にあり、残りの半分は中心の右側にあります。 そして、曲線の下の合計面積は 1 です。

 ミュー= 0
分散= 1
シグマ= np . sqrt ( 分散)
x = np . linspace ( mu - 3 * sigma , mu + 3 * sigma , 100 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( xstats . norm . pdf ( xmusigma ))
plt . title ( "正規分布" )
plt . 表示()

正規分布の場合。 経験則によれば、データの割合は平均値から一定数の標準偏差の範囲内に収まります。 これらの割合は次のとおりです。

  • データの 68% が平均値の 1 標準偏差以内に収まります。
  • データの 95% は平均値の 2 標準偏差以内に収まります。
  • データの 99.7% は平均値の 3 標準偏差以内に収まります。

対数正規分布

対数正規分布は、対数が正規分布するランダム変数の連続確率分布です。 したがって、ランダム変数 X が対数正規分布する場合、Y = ln(X) は正規分布になります。

これは対数正規分布の PDF です。

対数正規分布するランダム変数は、正の実数値のみを取ります。 したがって、対数正規分布は右に歪んだ曲線を作成します。

Python でプロットしてみましょう:

 X = np . linspace ( 0 , 6 , 500 )
標準偏差= 1
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
figax = plt . subplots ( figsize = ( 85 ))
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=1" )
ax.set_xticks ( np.arange ( min ( X ), max ( X )))
標準偏差= 0.5
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=0.5" )
標準偏差= 1.5
平均= 1
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=1、σ=1.5" )
plt . title ( "対数正規分布" )
plt . 凡例()
plt . 表示()

ポアソン分布

ポアソン分布はフランスの数学者シモン・ドニ・ポアソンにちなんで名付けられました。 これは離散確率分布であり、有限数の結果を持つイベントをカウントすることを意味します。つまり、カウント分布です。 したがって、ポアソン分布は、指定された期間内にイベントが発生する可能性のある回数を示すために使用されます。

イベントが時間内に一定の割合で発生する場合、時間内にイベントの数 (n) を観測する確率はポアソン分布で表すことができます。 たとえば、カフェには平均して 1 分あたり 3 人の顧客が訪れるとします。 ポアソン分布を使用して、9 人の顧客が 2 分以内に到着する確率を計算できます。

確率質量関数の式は次のとおりです。

λ は時間単位あたりのイベント率です。この場合は 3 です。 k は発生回数です。この場合は 9 です。ここで Scipy を使用して確率計算を完了できます。

 scipy から統計をインポート
印刷( 統計. ポアソン. pmf ( k = 9mu = 3 ))
「」
0.002700503931560479
「」

ポアソン分布の曲線は正規分布に似ており、ラムダがピークを表します。

 X = 統計. ポアソン.rvs ( mu = 3サイズ= 500 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X密度= Trueエッジカラー= "black" )
plt . title ( "ポアソン分布" )
plt . 表示()

指数分布

指数分布は、ポアソン点過程におけるイベント間の時間の確率分布です。指数分布の確率密度関数は次のとおりです。

λ はレートパラメータであり、x はランダム変数です。

 X = np . linspace ( 0 , 5 , 5000 )
指数分布= 統計. 指数.pdf ( X位置= 0スケール= 1 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( X , 指数分布)
plt . title ( "指数分布" )
plt . 表示()

二項分布

二項分布は、実験の成功または失敗の確率と考えることができます。 これをコイン投げの確率と表現する人もいるかもしれません。

パラメータ n と p を持つ二項分布は、それぞれが「はい/いいえ」の質問をし、それぞれが成功または失敗というブール結果を持つ n 個の独立した実験のシーケンスにおける成功数の離散確率分布です。

本質的に、二項分布は 2 つのイベントの確率を測定します。 1 つのイベントが発生する確率は p で、他のイベントが発生する確率は 1-p です。

二項分布の式は次のとおりです。

視覚化コードは次のとおりです。

 X = np . ランダム. 二項分布( n = 1p = 0.5サイズ= 1000 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X )
plt . title ( "二項分布" )
plt . 表示()

スチューデントのt分布

スチューデントの t 分布 (または単に t 分布) は、サンプル サイズが小さく、母集団の標準偏差が不明な場合に、正規分布する母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。 これは、「学生」という仮名を使用していた英国の統計学者ウィリアム・シーリー・ゴセットによって開発されました。

PDFは次のとおりです。

n は自由度と呼ばれるパラメータで、「dof」と呼ばれることもあります。n の値が大きいほど、t 分布は正規分布に近くなります。

 Seaborn をSNS としてインポートする
scipy から統計をインポート
X1 = 統計. t . rvs ( 自由度= 1サイズ= 4 )
X2 = 統計. t . rvs ( 自由度= 3サイズ= 4 )
X3 = 統計. t . rvs ( df = 9サイズ= 4 )
plt . サブプロット( figsize = ( 8 , 5 ))
sns.kdeplot ( X1 , ラベル= "1自由度" )
sns . kdeplot ( X2ラベル= "3 dof" )
sns.kdeplot ( X3 , ラベル= "6自由度" )
plt . title ( "スチューデントのt分布" )
plt . 凡例()
plt . 表示()

カイ二乗分布

カイ二乗分布はガンマ分布の特殊なケースです。自由度が k の場合、カイ二乗分布は、いくつかの独立した標準正規乱数の k 乗の合計です。

PDFは次のとおりです。

これは、仮説検定や信頼区間の構築によく使用される一般的な確率分布です。

Python でいくつかのサンプルグラフを描いてみましょう。

 X = np . 範囲( 0 , 6 , 0.25 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt.plot ( X , stats.chi2.pdf ( X , df = 1 ), label = "1 dof" ) です
plt.plot ( X , stats.chi2.pdf ( X , df = 2 ), label = "2 dof" ) グラフプロット
plt.plot ( X , stats.chi2.pdf ( X , df = 3 ), label = "3 dof" ) グラフプロット
plt . title ( "カイ二乗分布" )
plt . 凡例()
plt . 表示()

データサイエンスには、統計と確率を適切に理解することが不可欠です。 この記事では、一般的でよく使用されるディストリビューションをいくつか紹介します。お役に立てば幸いです。


<<:  自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

>>:  あなたの AI は規制に対応できる準備ができていますか?

ブログ    
ブログ    
ブログ    

推薦する

アヴネットの鍾喬海氏:人工知能はモノのインターネットの実装を加速させる

【51CTO.comオリジナル記事】 今日では、AI や IoT テクノロジーに投資する企業がますま...

パロアルトネットワークス:AIを使ってAIと戦うことは、ネットワークセキュリティ技術の発展における避けられないトレンドです

「 AI攻撃を阻止するために人力を使うことはできません。AIと戦うにはAIを使わなければなりません。...

GPT-3: 高く評価されている交通の星ですが、大きな欠陥があり、非常に危険です...

昨年、最も人気があったトラフィックスターはGPT-3でした。GPT-3は質問に答えたり、記事を書いた...

NvidiaとFoxconnがAIに特化した新しいデータセンターの開発で提携

ジェンセン・フアンとヤンウェイ・リウが、AIイノベーションに特化した「工場」を建設するという新しいプ...

スマートホームが不動産市場の動向に与える影響

今日、多くの人がスマートホームが提供するものを活用したいと考えています。スマートホームは、快適で便利...

ICLR 2020 におけるナレッジグラフ研究の包括的な概要

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

橋梁点検におけるUAV技術の応用

これらの技術の応用により、長期的にはドローンが開発され、橋梁点検の分野で応用されるでしょう。では、橋...

マスク氏のロボットショーは何百万人ものネットユーザーを魅了した!

テスラロボットが家事を始める。マスク氏は最新の動画で、テスラのロボット「オプティマス・プライム」が服...

人工知能でカスタマーサービスエージェントを強化する方法

今日、ほぼすべての分野やビジネスが何らかの変革を遂げており、多くの企業がデジタル技術の波の推進力を受...

AI + リアルタイム監視技術が公共サービスを改善する10の方法

石油やガスの価格変動、運用コストの増加、サイバー/物理的な脅威の増大により、公益事業会社はセキュリテ...

機械学習の成功事例9つを詳しく見る

かつては企業にとって「空約束」と考えられていた人工知能(AI)と機械学習(ML)が、今では主流になっ...

0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

最近、ヴィンセントのビデオモデル「Sora」が生成 AI モデルの新たな波を引き起こし、そのモデルの...

このロボットは食べられますか?科学者は副作用なく食べても安全だと言っている

ロボットを食べるというのはあまり魅力的に聞こえないかもしれないが、近い将来、食べられる機械があなたの...