データ サイエンティストが 95% の時間使用する 11 の基本分布

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き、今日はデータ サイエンティストが 95% の時間に使用する 11 個の基本的な分布を紹介します。これらの分布を理解することで、データの性質をより深く理解し、データ分析や意思決定の際により正確な推論や予測を行うことができます。

1. 正規分布

正規分布はガウス分布とも呼ばれ、連続確率分布です。これは、平均 (μ) を中心とし、標準偏差 (σ) を幅とする対称的なベル型曲線です。正規分布は、統計学、確率論、工学など多くの分野で重要な応用価値を持っています。

正規分布の確率密度関数は次のとおりです。

ここで、μ は平均、σ は標準偏差です。確率密度関数は、与えられた値 x の周りの単位区間内の正規分布するランダム変数の値の確率密度を表します。

正規分布の実際の応用: たとえば、人間の身長と体重の分布は正規分布に近く、テストの点数は通常正規分布し、高点と低点の人は少なく、中間の点数の人は多くなります。

2. ベルヌーイ分布

ベルヌーイ分布は、2 つの結果のみの可能性がある単一のランダム実験を記述するために使用される離散確率分布です。ベルヌーイ試行は、表か裏、成功か失敗、はいかいいえなどになります。たとえば、コインを投げる、製品が適格かどうかをテストする、誰かが特定の製品を購入するかどうかなどです。

ベルヌーイ分布の確率質量関数は次のようになります。

ここで、p は成功の確率であり、範囲は 0 から 1 です。 p=0.5 の場合、ベルヌーイ分布は均一分布に近づきます。

ベルヌーイ分布の実際の応用: たとえば、二項分布はベルヌーイ分布の n 回の独立した繰り返し試行です。

3. 二項分布

二項分布は、n 回の独立した繰り返し試行における成功回数の確率分布を表す離散確率分布です。各試行には、成功 (1 で表示) または失敗 (0 で表示) の 2 つの結果のみが可能です。成功の確率は p で、失敗の確率は 1-p です。

二項分布の確率質量関数は次のとおりです。

このうち、P(X=k)はk回の成功の確率を表し、は組み合わせの数、n回の試行からk回の成功を選択する組み合わせの数を表します。 p は成功の確率であり、範囲は 0 から 1 です。 n は試行回数です。

二項分布の実際の応用としては、医療研究においては特定の治療を受けた患者の成功率、工学においては生産工程における製品の合格率などが挙げられます。

4. ポアソン分布

ポアソン分布は、一定時間内にイベントが発生する回数の確率分布を記述するために使用される離散確率分布です。ポアソン分布は、イベントが互いに独立しており、一定の平均率で発生する状況に適用されます。

ポアソン分布の確率質量関数は次のとおりです。

このうち、P(X=k)は一定時間内に事象がk回発生する確率を表し、λは事象の平均発生率、つまり単位時間あたりに事象が発生する平均回数を表します。 e は自然定数で、およそ 2.718 です。 k はイベントが発生する回数です。

ポアソン分布の実際の応用: たとえば、電話コール センターでは、1 分あたりに受信される通話数はポアソン分布と見なすことができ、1 分あたりの平均受信通話数は λ です。

5. 指数分布

指数分布は、一定時間内にイベントが発生する確率を表す連続確率分布です。指数分布は、イベントが互いに独立しており、一定の平均速度で発生する状況に適用されます。

指数分布の確率密度関数は次のようになります。

ここで、f(x,λ)は、与えられた時間x内に発生するイベントの確率密度を表します。 λ はイベントの平均発生率、つまり単位時間あたりにイベントが発生する平均回数を表します。 e は自然定数で、およそ 2.718 です。

指数分布の実際の応用: 放射性崩壊では、放射性原子核の崩壊時間は指数分布とみなすことができ、平均崩壊時間は λ です。

6. ガンマ分布

ガンマ分布は、指定された時間内にイベントが発生する確率を表す連続確率分布です。ガンマ分布は、イベントが互いに独立しており、一定の平均率で発生する場合に適用できます。

ガンマ分布の確率密度関数は次のとおりです。

ここで、f(x) は、与えられた時間 x 内に発生するイベントの確率密度を表します。 α と β はそれぞれ形状パラメータと速度パラメータを表します。 α はガンマ分布の形状を決定し、0 から正の無限大までの範囲になります。 β はイベントの平均発生率、つまり単位時間あたりにイベントが発生する平均回数を表し、その値の範囲は 0 から正の無限大です。 e は自然定数で、およそ 2.718 です。

ガンマ分布の実際の応用:例えば、放射性崩壊:放射性崩壊では、放射性原子核の崩壊時間はガンマ分布とみなすことができ、平均崩壊時間はβ/αです。

7. ベータ分布

ベータ分布は、一連の値における成功数の確率分布を表す連続確率分布です。成功確率の期待値 (平均) と標準偏差を表す 2 つのパラメーターがあります。

ベータ分布の確率密度関数は次のとおりです。

ここで、x は成功数を表し、α と β は分布の形状パラメータを表します。

ベータ分布は多くの実用的な問題に応用されています。たとえば、遺伝子編集では、研究者はベータ分布を使用して、遺伝子編集技術を使用してターゲット サイトを正常に編集できる確率を予測できます。金融では、ベータ分布は資産価格の変動性を説明したり、ポートフォリオの期待収益を計算したりするために使用できます。

8. 均等配分

一様分布は、一定の間隔内で一様に分布する値の集合を表す確率分布です。一様分布には、離散一様分布と連続一様分布の 2 種類があります。

離散一様分布: 離散ランダム変数 X が次の確率分布に従う場合: P(X=k) = k/(n+1)、ここで k は負でない整数、n は区間内の整数、X は離散一様分布に従うと言われます。連続一様分布: 連続ランダム変数 X の確率密度関数が f(x) = 1/(ba)! の場合

一様分布の特徴は、与えられた間隔内で各値が発生する確率が等しいことです。たとえば、公平なコインを投げると、表か裏が出る確率は 1/2 となり、これは一様分布です。

9. 対数正規分布

対数正規分布は連続確率分布であり、ランダム変数の対数が正規分布に従うことによって特徴付けられます。言い換えると、ランダム変数 X の対数 ln(X) が正規分布に従う場合、ランダム変数 X は対数正規分布に従います。

対数正規分布の確率密度関数は次のようになります。

ここで、μ は対数正規分布の平均であり、σ は対数正規分布の標準偏差です。

対数正規分布は、金融(株価、収益など)、生物学(成長率など)、経済学(消費者支出など)など、多くの実用的なアプリケーションで非常に重要です。

10. T分布

T 分布は連続確率分布であり、主に小規模なサンプルの場合の平均の分布を記述するために使用されます。 t 分布は正規分布に似ていますが、自由度 (k) の数に応じて、その裾が左または右に伸びることがあります。 t 分布は、統計的推論、たとえば標本平均と母集団平均の差の重要性を評価するための仮説検定で広く使用されています。

t 分布の平均と分散は次のとおりです。

E(t)=0

Var(t)=k/(k-1)

t 分布の自由度 (k) は、サンプル サイズ (n) と母集団の標準偏差の関係を表します。 k > 30 の場合、t 分布は正規分布に近づきます。k が 1 に近づくと、t 分布はコーシー分布になります。

実際のアプリケーションでは、サンプル サイズが大きい場合 (n>30)、正規分布を仮説検定に使用し、z 統計量を使用して信頼区間を構築できます。サンプルサイズが小さい場合 (n<30)、正規分布の仮定が満たされないため、テストには t 分布が必要になります。 t 分布を使用すると、標本平均と母集団平均の差をより正確に評価し、合理的な決定を下すことができます。

11. ワイブル分布

ワイブル分布は連続確率分布です。

ワイブル分布の確率密度関数は次のとおりです。

ここで、x はランダム変数、λ はスケール パラメーター、k は形状パラメーターであり、k = 1 の場合、ワイブル分布は指数分布になります。 λ=1 の場合、最小化されたワイブル分布と呼ばれます。

<<: 

>>:  ワークフローをよりスマートにする 5 つの AI ツール

ブログ    

推薦する

第1回自動車開発者会議(2021)が成功裏に終了しました

10月20日、国家インテリジェントコネクテッドビークルイノベーションセンター(以下、「イノベーション...

...

人工知能における計算能力、アルゴリズム、データに関する簡単な説明

ラボガイド科学技術の急速な発展により、人工知能(AI)は今日最もホットな話題の1つになりました。人工...

...

...

企業は生成AIのオープンソース化のリスクとメリットを検討

EmTech MIT では、専門家が、生成 AI モデルのオープンソース化の長所と短所を含め、企業で...

Beike Renting: 業界に力を与え、レンタル部門の基準の再構築を推進

[原文は51CTO.comより] 国家の不動産市場マクロコントロール政策の導入以来、住宅購入の敷居は...

画像認識は思ったほど難しくありません!この記事を読めばあなたも専門家になれる

[51CTO.com からのオリジナル記事] ローカルライフのシナリオには、メニュー認識、標識認識、...

給料の心配はやめましょう。これは今後 10 年間で最も収益性の高い業界であり、横になっているときでもお金を稼ぐことができます。

小米創始者の雷軍はかつて「風の吹き口に立てば豚でも飛べる」と言った。事実は往々にしてこの通りだ。人の...

Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

[[435977]]現在、AI技術は急速に進歩しており、毎年多くの優れた論文が発表されています。 2...

DAMOアカデミー物流ロボットQA

1. 物流ロボットとは?物流ロボット「Xiaomanlu」は、ターミナル物流シナリオ向けに設計され...

ソフトウェア開発者ガイド: 独自のデータで ChatGPT をトレーニングする

翻訳者 | 李睿レビュー | Chonglou制作:51CTO テクノロジースタック(WeChat ...

サイズはたったの1MB!超軽量顔認識モデルがGithubで人気

最近、ユーザー Linzaer が、エッジ コンピューティング デバイス、モバイル デバイス、PC ...

ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデル...

絶対確実な協働ロボット

人間とロボットが協力して協働ロボットを作る[[321860]]協働ロボットは人間と対話し、協働するよ...