如何理解分层抽样?
分层抽样是一种抽样策略,适用于大体量的总体,其思想是将总体根据某些特定的属性划分成若干层,然后在每一层内进行简单随机抽样,从而得到一定数量的样本。分层抽样的目的在于提高估计精度,更加准确地估计总体参数。
下面是分层抽样方差公式的推导过程:
首先,假设总体被分为m个层,第i层中有Ni个单位,样本来自第i层的比例为fi。样本中来自第i层的本量为ni,有n = ∑ni, 则:fi=ni/Ni , i=1,2,...,m。
假设样本的第i个单位x[i]与第j个单位x[j]之间的协方差为sij,样本内的总体方差估计为s^2。总体的方差为:
Var(x) = (1/N)ΣΣsij/ninj + (1/N)Σ(fi-1)s^2i
其中,(1/N)ΣΣsij/ninj表示样本的方差,(1/N)Σ(fi-1)s^2i表示分层造成的方差。由于ni和s^2i通常难以获取,因此采用样本的无偏估计量ni/Ni和s^2的无偏估计量s^2=(1/n-1)Σ(x[i]-x)^2。
将上述无偏估计量带入公式得到:
Var(x) = [(1-f) / n] ΣΣ(x[i]-x[j])^2 + [f/(n-1)] Σ (ni/Ni) [(x[i]-xi)^2 - s^2i]
式中f为样本分层抽样的比例(n/N)。
需要注意的是,样本分层越明显,样本所占的比例f越小,分层所造成的方差就越小,从而达到更高的估计精度。