データ サイエンティストが 95% の時間使用する 11 の基本分布

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き、今日はデータ サイエンティストが 95% の時間に使用する 11 個の基本的な分布を紹介します。これらの分布を理解することで、データの性質をより深く理解し、データ分析や意思決定の際により正確な推論や予測を行うことができます。

1. 正規分布

正規分布はガウス分布とも呼ばれ、連続確率分布です。これは、平均 (μ) を中心とし、標準偏差 (σ) を幅とする対称的なベル型曲線です。正規分布は、統計学、確率論、工学など多くの分野で重要な応用価値を持っています。

正規分布の確率密度関数は次のとおりです。

ここで、μ は平均、σ は標準偏差です。確率密度関数は、与えられた値 x の周りの単位区間内の正規分布するランダム変数の値の確率密度を表します。

正規分布の実際の応用: たとえば、人間の身長と体重の分布は正規分布に近く、テストの点数は通常正規分布し、高点と低点の人は少なく、中間の点数の人は多くなります。

2. ベルヌーイ分布

ベルヌーイ分布は、2 つの結果のみの可能性がある単一のランダム実験を記述するために使用される離散確率分布です。ベルヌーイ試行は、表か裏、成功か失敗、はいかいいえなどになります。たとえば、コインを投げる、製品が適格かどうかをテストする、誰かが特定の製品を購入するかどうかなどです。

ベルヌーイ分布の確率質量関数は次のようになります。

ここで、p は成功の確率であり、範囲は 0 から 1 です。 p=0.5 の場合、ベルヌーイ分布は均一分布に近づきます。

ベルヌーイ分布の実際の応用: たとえば、二項分布はベルヌーイ分布の n 回の独立した繰り返し試行です。

3. 二項分布

二項分布は、n 回の独立した繰り返し試行における成功回数の確率分布を表す離散確率分布です。各試行には、成功 (1 で表示) または失敗 (0 で表示) の 2 つの結果のみが可能です。成功の確率は p で、失敗の確率は 1-p です。

二項分布の確率質量関数は次のとおりです。

このうち、P(X=k)はk回の成功の確率を表し、は組み合わせの数、n回の試行からk回の成功を選択する組み合わせの数を表します。 p は成功の確率であり、範囲は 0 から 1 です。 n は試行回数です。

二項分布の実際の応用としては、医療研究においては特定の治療を受けた患者の成功率、工学においては生産工程における製品の合格率などが挙げられます。

4. ポアソン分布

ポアソン分布は、一定時間内にイベントが発生する回数の確率分布を記述するために使用される離散確率分布です。ポアソン分布は、イベントが互いに独立しており、一定の平均率で発生する状況に適用されます。

ポアソン分布の確率質量関数は次のとおりです。

このうち、P(X=k)は一定時間内に事象がk回発生する確率を表し、λは事象の平均発生率、つまり単位時間あたりに事象が発生する平均回数を表します。 e は自然定数で、およそ 2.718 です。 k はイベントが発生する回数です。

ポアソン分布の実際の応用: たとえば、電話コール センターでは、1 分あたりに受信される通話数はポアソン分布と見なすことができ、1 分あたりの平均受信通話数は λ です。

5. 指数分布

指数分布は、一定時間内にイベントが発生する確率を表す連続確率分布です。指数分布は、イベントが互いに独立しており、一定の平均速度で発生する状況に適用されます。

指数分布の確率密度関数は次のようになります。

ここで、f(x,λ)は、与えられた時間x内に発生するイベントの確率密度を表します。 λ はイベントの平均発生率、つまり単位時間あたりにイベントが発生する平均回数を表します。 e は自然定数で、およそ 2.718 です。

指数分布の実際の応用: 放射性崩壊では、放射性原子核の崩壊時間は指数分布とみなすことができ、平均崩壊時間は λ です。

6. ガンマ分布

ガンマ分布は、指定された時間内にイベントが発生する確率を表す連続確率分布です。ガンマ分布は、イベントが互いに独立しており、一定の平均率で発生する場合に適用できます。

ガンマ分布の確率密度関数は次のとおりです。

ここで、f(x) は、与えられた時間 x 内に発生するイベントの確率密度を表します。 α と β はそれぞれ形状パラメータと速度パラメータを表します。 α はガンマ分布の形状を決定し、0 から正の無限大までの範囲になります。 β はイベントの平均発生率、つまり単位時間あたりにイベントが発生する平均回数を表し、その値の範囲は 0 から正の無限大です。 e は自然定数で、およそ 2.718 です。

ガンマ分布の実際の応用:例えば、放射性崩壊:放射性崩壊では、放射性原子核の崩壊時間はガンマ分布とみなすことができ、平均崩壊時間はβ/αです。

7. ベータ分布

ベータ分布は、一連の値における成功数の確率分布を表す連続確率分布です。成功確率の期待値 (平均) と標準偏差を表す 2 つのパラメーターがあります。

ベータ分布の確率密度関数は次のとおりです。

ここで、x は成功数を表し、α と β は分布の形状パラメータを表します。

ベータ分布は多くの実用的な問題に応用されています。たとえば、遺伝子編集では、研究者はベータ分布を使用して、遺伝子編集技術を使用してターゲット サイトを正常に編集できる確率を予測できます。金融では、ベータ分布は資産価格の変動性を説明したり、ポートフォリオの期待収益を計算したりするために使用できます。

8. 均等配分

一様分布は、一定の間隔内で一様に分布する値の集合を表す確率分布です。一様分布には、離散一様分布と連続一様分布の 2 種類があります。

離散一様分布: 離散ランダム変数 X が次の確率分布に従う場合: P(X=k) = k/(n+1)、ここで k は負でない整数、n は区間内の整数、X は離散一様分布に従うと言われます。連続一様分布: 連続ランダム変数 X の確率密度関数が f(x) = 1/(ba)! の場合

一様分布の特徴は、与えられた間隔内で各値が発生する確率が等しいことです。たとえば、公平なコインを投げると、表か裏が出る確率は 1/2 となり、これは一様分布です。

9. 対数正規分布

対数正規分布は連続確率分布であり、ランダム変数の対数が正規分布に従うことによって特徴付けられます。言い換えると、ランダム変数 X の対数 ln(X) が正規分布に従う場合、ランダム変数 X は対数正規分布に従います。

対数正規分布の確率密度関数は次のようになります。

ここで、μ は対数正規分布の平均であり、σ は対数正規分布の標準偏差です。

対数正規分布は、金融(株価、収益など)、生物学(成長率など)、経済学(消費者支出など)など、多くの実用的なアプリケーションで非常に重要です。

10. T分布

T 分布は連続確率分布であり、主に小規模なサンプルの場合の平均の分布を記述するために使用されます。 t 分布は正規分布に似ていますが、自由度 (k) の数に応じて、その裾が左または右に伸びることがあります。 t 分布は、統計的推論、たとえば標本平均と母集団平均の差の重要性を評価するための仮説検定で広く使用されています。

t 分布の平均と分散は次のとおりです。

E(t)=0

Var(t)=k/(k-1)

t 分布の自由度 (k) は、サンプル サイズ (n) と母集団の標準偏差の関係を表します。 k > 30 の場合、t 分布は正規分布に近づきます。k が 1 に近づくと、t 分布はコーシー分布になります。

実際のアプリケーションでは、サンプル サイズが大きい場合 (n>30)、正規分布を仮説検定に使用し、z 統計量を使用して信頼区間を構築できます。サンプルサイズが小さい場合 (n<30)、正規分布の仮定が満たされないため、テストには t 分布が必要になります。 t 分布を使用すると、標本平均と母集団平均の差をより正確に評価し、合理的な決定を下すことができます。

11. ワイブル分布

ワイブル分布は連続確率分布です。

ワイブル分布の確率密度関数は次のとおりです。

ここで、x はランダム変数、λ はスケール パラメーター、k は形状パラメーターであり、k = 1 の場合、ワイブル分布は指数分布になります。 λ=1 の場合、最小化されたワイブル分布と呼ばれます。

<<: 

>>:  ワークフローをよりスマートにする 5 つの AI ツール

ブログ    
ブログ    

推薦する

AIの技術的負債の解消は急務

この流行は世界市場に衝撃をもたらしたが、人工知能(AI)企業への資本投資は増加し続けている。 CB ...

ApolloとCarSim/TruckSimの共同シミュレーション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

北京ソフトウェア協会が「人工知能委員会」の設立準備を進め、アジアインフォテクノロジーズの欧陽葉博士が委員長に選出される

10月26日、中国科学技術協会社会サービスセンターの支援を受けて、北京ソフトウェア情報サービス協会(...

ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

人間とは異なり、人工ニューラル ネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘...

Appleが記者会見でFaceIDを発表。あなたは顔認識機能を使ってみますか?

[[203619]] 「もし私が諜報員だったら、生体認証機能をオンにすることは絶対にありません。」...

自動化とロボット工学:どちらがあなたの会社に適していますか?

ロボット工学と自動化には違いがありますか? 自動化が自分に適しているかどうかわからない人はたくさんい...

音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

GPT や DALL-E などの大規模な生成モデルが自然言語処理やコンピューター ビジョンの研究に革...

...

Galaxy Water Dropsが中関村フロンティアコンテストの人工知能分野でトップ10入りを果たす

10月21日、2020年全国大衆起業・イノベーション週間の北京会場である2020年中関村国際フロンテ...

...

スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速

COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...

SGDの素晴らしさはディープラーニングの重要性をもたらす

ビッグデータダイジェスト制作7月、ニューヨーク大学(NYU)の博士研究員であるナオミ・サフラ氏は、「...

人工知能は企業で実用化されつつある

AI は、従来のプロセスや従来のテクノロジーにまき散らされた魔法の精霊ではなく、ビジネスのやり方を根...

人工知能は患者と医療業界の両方にどのような利益をもたらすのでしょうか?

人工知能は医療業界のシステムと方法を変えています。半世紀以上にわたり、人工知能とヘルスケアは一緒に発...