基礎数学 – 統計数理基礎 – 離散分布と連続分布

離散分布

二項分布

二項分布は、固定された回数の試行で、各試行が「成功」または「失敗」の2つの結果しか生じない状況に適用される確率分布です。二項分布は、特に独立な試行において同じ確率で成功する場合に用いられます。

具体的に言うと、二項分布は以下の3つのパラメーターに基づいています:

1. n:試行の回数(例:コインを10回投げる)
2. p:各試行で成功する確率(例:コインが表になる確率は0.5)
3. k:成功の回数(例:10回中5回、コインが表になる)

二項分布の確率質量関数(PMF)は以下の式で与えられます:
\[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \]

ここで、\(P(X=k)\)はn回の試行中にk回成功する確率を表し、\(\binom{n}{k}\)は組み合わせ数、つまりn回の試行からk回の成功を選ぶ方法の数を表します。この式は、特定のk回成功(およびn-k回の失敗)が発生する確率を計算します。

例えば、コインを5回投げて、ちょうど3回表が出る確率を計算したい場合は、n=5、k=3、p=0.5を式に代入して計算します。

二項分布は、品質管理、医学的試験、ゲーム理論、選挙の予測など、多くの分野で応用されます。重要な点は、試行が独立であることと、各試行の成功確率が一定であることです。これらの条件が満たされる場合、二項分布は非常に有用なツールとなります。

 

超幾何分布

超幾何分布は、二項分布と似ていますが、重要な違いがあります。それは、試行の間に成功の確率が変化する点です。具体的には、超幾何分布は、限定された母集団からの非復元抽出(一度選んだものを元に戻さない抽出)に関連しています。これは、サンプリングにおいて抽出される各要素が次に何が選ばれるかに影響を与える場合に使用されます。

超幾何分布の典型的な例は、「くじ引き」です。たとえば、赤と青の球が入った箱があり、あなたが箱から球をランダムに引く場合を考えましょう。一度引いた球は箱に戻さず、赤い球が引かれる確率を知りたい場合、この状況は超幾何分布でモデル化できます。

超幾何分布は以下の4つのパラメータによって定義されます:

1. N:母集団のサイズ(例:箱に入っている球の総数)
2. K:成功の数を表す母集団内の特定の要素の数(例:箱の中の赤い球の数)
3. n:非復元抽出によるサンプルのサイズ(例:箱から引く球の数)
4. k:成功の数(例:引いた球の中の赤い球の数)

超幾何分布の確率質量関数(PMF)は以下の式で与えられます:
\[ P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]

ここで、\(P(X=k)\)はn回の抽出でちょうどk回成功する確率を表し、分子は成功の組み合わせと失敗の組み合わせの積を表し、分母は全体の組み合わせ数を表します。

例として、100個の球があり、そのうち20個が赤いとします。10個の球を非復元抽出する場合に、ちょうど3個の赤い球が含まれる確率を計算する場合、このシナリオは超幾何分布を使用してモデル化できます。

二項分布とは異なり、超幾何分布は、抽出される各要素が次に何が選ばれるかに影響を与えるため、試行間の独立性が必ずしも保持されません。これは、市場調査、品質管理、生態学的研究など、多くの実際のシナリオに適用できます。

ポアソン分布

ポアソン分布は、ある固定された時間間隔や空間内で、ランダムに発生するイベントの数をモデル化するために使われる確率分布です。この分布は、イベントが独立しており、平均的な発生率(λ, ラムダ)が一定である場合に適用されます。

ポアソン分布の特徴は、イベントが非常に稀であるか、または短い時間間隔で発生する場合に、特に有用であることです。例えば、ある地域での1時間あたりの電話の着信数、あるウェブサイトへの1日あたりの訪問者数、1平方メートルあたりの雨滴の数など、様々な現象をモデル化するのに使用されます。

ポアソン分布の確率質量関数(PMF)は以下の式で与えられます:
\[ P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

ここで、
– \(P(X=k)\) は、ある期間または空間内でイベントがちょうどk回発生する確率を表します。
– \(\lambda\) は平均発生率(期間または空間あたりの平均イベント数)です。
– \(e\) は自然対数の底(約2.71828)です。
– \(k!\) はkの階乗(1からkまでの全ての整数の積)です。

ポアソン分布の主な特徴は、その平均と分散が等しい(\(\lambda\))ことです。これは、イベントの発生が予測可能な平均率に従っているが、実際の発生数がその平均から大きくずれる可能性があることを意味します。

例として、ある病院の救急室に1時間あたり平均2件の緊急事態が報告される場合、ポアソン分布を使用して、次の1時間にちょうど3件の緊急事態が発生する確率を計算できます。この場合、\(\lambda = 2\) として、上記の式に代入して計算します。

ポアソン分布は、時間や空間におけるランダムイベントのモデリング、トラフィックフロー分析、生物学や医学研究における稀なイベントの研究など、多岐にわたる分野で応用されます。

 

連続分布

正規分布

正規分布は、統計学や確率論で最も広く知られている連続確率分布の一つで、多くの自然現象や社会科学のデータに適用されます。この分布は「ガウス分布」とも呼ばれ、データが平均(μ)を中心に対称的に分布し、分散(σ^2)によって広がりが決まる、ベル型の曲線を描きます。

正規分布の特徴は、データの約68%が平均から標準偏差(σ)の1倍以内に、約95%が2倍以内に、約99.7%が3倍以内に含まれる「68-95-99.7ルール」という性質を持つことです。これにより、正規分布は実際の多くの現象をモデル化するのに非常に便利です。

正規分布の確率密度関数(PDF)は以下の式で表されます:
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

ここで、
– \(x\) は確率変数です。
– \(μ\) は平均です。
– \(σ\) は標準偏差です。
– \(σ^2\) は分散です。

この分布のベル形状は、平均値を中心として左右対称であり、データの分布が平均値に近いほど高く、平均値から離れるほど低くなります。標準偏差は、データが平均値からどの程度散らばっているかを示します。標準偏差が大きいほど、データは平均値から広がり、曲線は平らになります。逆に、標準偏差が小さいほど、データは平均値に集中し、曲線はより尖った形になります。

正規分布は、人間の身長やテストスコア、測定誤差、社会科学の様々な指標など、実世界の無数の現象をモデル化するのに使われます。また、中心極限定理により、標本平均の分布は、元の分布が正規分布でなくても、標本サイズが大きい場合に正規分布に近づくとされています。これは、多くの統計的手法や推論が正規分布に基づいている理由です。

ガンマ分布

ガンマ分布は、連続確率分布の一種で、2つのパラメーターによって形成されます:形状パラメーター \( \alpha \)(または k)と尺度パラメーター \( \beta \)(または \( \theta \))。この分布は、複数のポアソン過程で発生するイベントの待ち時間や、ある期間内に特定のイベントが発生する回数など、さまざまな現象をモデル化するのに使用されます。

ガンマ分布の特徴は、形状パラメーター \( \alpha \) が整数値の場合、エルラング分布と呼ばれる特別なケースになり、\( \alpha = 1 \) の場合は、指数分布と等しくなる点です。指数分布は、あるイベントが発生するまでの時間をモデル化するのに使われますが、ガンマ分布は複数のイベントの合計待ち時間を表します。

ガンマ分布の確率密度関数(PDF)は以下の式で表されます:
\[ f(x; \alpha, \beta) = \frac{x^{\alpha-1} e^{-x/\beta}}{\beta^\alpha \Gamma(\alpha)} \]

ここで、
– \(x\) は確率変数(例:待ち時間やイベント発生回数)で、\(x > 0\)です。
– \( \Gamma(\alpha) \) はガンマ関数で、\( \alpha \) の階乗の一般化(\( \alpha \)が整数の場合)です。

ガンマ分布は、形状パラメーターによってさまざまな形をとることができます。例えば、\( \alpha < 1 \) の場合は、原点に近づくにつれて確率密度が増加し、\( \alpha > 1 \) の場合は、ある正の値で最大になります。

この分布は、保険数学での請求額の合計、工学でのシステムや部品の寿命のモデリング、医学研究での生存時間分析など、様々な分野で応用されています。ガンマ分布は、待ち時間やイベント発生のモデリングにおいて、その柔軟性と表現力のために非常に重宝されます。

 

 

 指数分布

指数分布は、連続確率分布の一種で、あるイベントが発生するまでの待ち時間や、電子部品のようなシステムやオブジェクトの寿命をモデル化するのに用いられます。特に、イベント間の時間がメモリレス(無記憶)性質を持つ場合、つまりイベントが発生してから次に発生するまでの時間が、過去のイベントに依存しない場合に適しています。これは、例えば、放射性物質の原子が崩壊するまでの時間や、コールセンターに次の電話がかかってくるまでの時間など、さまざまな現象に当てはまります。

指数分布は1つのパラメーター \( \lambda \)(ラムダ、単位時間あたりのイベント発生率)によって定義されます。この分布の確率密度関数(PDF)は次の式で表されます:
\[ f(x; \lambda) = \lambda e^{-\lambda x} \quad \text{for} \, x \geq 0 \]

ここで、
– \(x\) はイベントが発生するまでの待ち時間や、オブジェクトが動作する時間など、あるイベントまでの時間を示します。
– \(e\) は自然対数の底(約2.71828)です。

指数分布の特徴は、確率変数 \(X\)(イベントが発生するまでの時間)がメモリレス性を持つことです。これは、システムがある時間 \(t\) を経過した後、次のイベントまでの追加の待ち時間が、経過した時間 \(t\) に依存せず、初期状態と同じ分布に従うことを意味します。

指数分布の平均(期待値)と分散は、それぞれ \(1/\lambda\) と \(1/\lambda^2\) です。これは、イベント発生率が高い(\( \lambda \) が大きい)場合、平均待ち時間が短くなり、逆にイベント発生率が低い(\( \lambda \) が小さい)場合、平均待ち時間が長くなることを意味します。

指数分布は、信頼性工学、待ち行列理論、保険数学など、多くの分野で応用されています。その単純さと数学的な特性により、ランダムなイベントのモデリングに広く用いられています。