正态分布的简单随机抽样的样本的方差 服从 卡方分布 , 这是统计学中的一个经典结论。一般的概率统计书上都能查到。下面我简单讲讲,疏漏之处你去翻翻书。
首先,我们把这个结论用数学严格的表达一下:
定理:设 X1, X2, ... Xn 服从 独立的 Normal (mu, sigma)。那么样本方差 (n-1) * (S^2) / (sigma^2) 服从 自由度为 (n-1) 的卡方分布,记作 (n-1) * (S^2) / (sigma^2) ~ chi2(n-1)。
然后,要明白 chi2(n) 的定义是:
定义:设 Z1, Z2, ... Zn 服从 独立的 Normal (0,1) 。 那么 Z1^2 + Z2^2 + ... + Zn^2 的分布就叫做 chi2(n) 分布。
现在,我们写出 (n-1) * (S^2) / (sigma^2) 的具体表达式,以便和上面 chi2(n) 的定义进行比较:
(n-1) * (S^2) / (sigma^2) = (X1-Y)^2/sigma^2 + (X2-Y)^2/sigma^2 + ... + (Xn-Y)^2/sigma^2, 注意这里我们用 Y 表示 样本均值。
把这个表达式和上面 chi2(n) 的定义进行比较,我们注意到 (X1-Y)^2/sigma^2 确实是一个正态分布,它的均值是0,但是它的方差不是1。而且 (X1-Y)^2/sigma^2 和 (X2-Y)^2/sigma^2 也互相不独立 (因为都包含了Y)。通过这样比较,可知 (n-1) * S^2 / sigma^2 不可能服从 chi2(n) 分布。
但是神奇的是,虽然 (n-1) * (S^2) / (sigma^2) 不服从 chi2(n) 分布,但是它服从 chi2(n-1) 分布!统计学上为了方便记忆这个结论,通常把这个结论说成:“在计算样本方差时,失掉了一个自由度,所以自由度从 n 降到了 n-1 ”。
下面我们来尝试证明这一结论:
首先注意到 n-1 的最小取值是 1 。所以我们先考虑最简单的 n=2 的情形:
当 n=2 , 计算可知 (n-1) * (S^2) / (sigma^2) = (X1 - (X1+X2)/2)^2 + (X2 - (X1+X2)/2)^2 = (X1-X2)^2 / (2*sigma^2) 。 因为 X1, X2 是独立同分布的Normal (mu, sigma) , 所以 (X1-X2) / ((2)^(1/2) * sigma) 是 Normal (0, 1), 所以由 chi2 定义可知 (X1-X2)^2 / (2*sigma^2) 是 chi2(1) 。这样我们就证明了 n=1 的情形。
其他情形计算更加复杂,但是思路是一样的。严格的证明要用数学归纳法证明从 n 到 n+1 的情形,但是思路还是一样。