在概率论中,超几何分布是一种离散概率分布,用于描述从有限总体中不放回抽样时的成功次数的概率分布。这种分布广泛应用于统计学、生物学以及质量控制等领域。本文将详细推导超几何分布的期望值和方差,并通过严谨的数学方法加以证明。
超几何分布的基本定义
假设一个总体共有 \( N \) 个元素,其中包含 \( K \) 个成功元素(记为 "A"),其余 \( N-K \) 个为失败元素(记为 "B")。从这个总体中随机抽取 \( n \) 个样本,且不放回。设 \( X \) 表示抽到的成功元素数量,则 \( X \) 的概率质量函数为:
\[
P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}, \quad k = 0, 1, 2, \ldots, \min(n, K)
\]
这里,\( \binom{a}{b} \) 表示组合数,即从 \( a \) 个元素中选取 \( b \) 个的方式数。
期望值的推导
为了计算超几何分布的期望值 \( E[X] \),我们首先利用线性性质和对称性进行简化。令 \( X_i \) 表示第 \( i \) 次抽样是否成功(取值为 0 或 1),则有:
\[
X = \sum_{i=1}^n X_i
\]
由于每次抽样的结果是独立的,因此可以写出:
\[
E[X] = \sum_{i=1}^n E[X_i]
\]
注意到每个 \( X_i \) 的期望值相等,因此只需计算单次抽样的期望即可。设 \( p = \frac{K}{N} \),即每次抽样成功的概率,则:
\[
E[X_i] = p = \frac{K}{N}
\]
由此可得:
\[
E[X] = n \cdot \frac{K}{N}
\]
方差的推导
接下来,我们计算超几何分布的方差 \( Var(X) \)。利用方差公式 \( Var(X) = E[X^2] - (E[X])^2 \),我们需要先求出 \( E[X^2] \)。注意到:
\[
X^2 = \left( \sum_{i=1}^n X_i \right)^2 = \sum_{i=1}^n X_i^2 + 2 \sum_{1 \leq i < j \leq n} X_i X_j
\]
因此:
\[
E[X^2] = \sum_{i=1}^n E[X_i^2] + 2 \sum_{1 \leq i < j \leq n} E[X_i X_j]
\]
对于单个 \( X_i \),显然 \( X_i^2 = X_i \),所以 \( E[X_i^2] = E[X_i] = p \)。而对于 \( X_i X_j \),由于两次抽样不放回,其联合概率为:
\[
P(X_i = 1, X_j = 1) = \frac{\binom{K}{2} \binom{N-K}{n-2}}{\binom{N}{n}}
\]
从而得到:
\[
E[X_i X_j] = P(X_i = 1, X_j = 1) = \frac{K(K-1)}{N(N-1)}
\]
代入后整理可得:
\[
Var(X) = n \cdot \frac{K}{N} \cdot \left( 1 - \frac{K}{N} \right) \cdot \frac{N-n}{N-1}
\]
结论
综上所述,超几何分布的期望值和方差分别为:
\[
E[X] = n \cdot \frac{K}{N}, \quad Var(X) = n \cdot \frac{K}{N} \cdot \left( 1 - \frac{K}{N} \right) \cdot \frac{N-n}{N-1}
\]
这些结果展示了超几何分布的重要特性,为实际应用提供了理论支持。