无偏估计
实际生活中,如果我们需要了解一些统计数据的话,通常都是通过样本数据来估计总体数据的。例如,我们想知道全国高校学生的平均身高,这是很难去全部测量的,所以我们要随机取样,然后通过样本均值来估计总体均值(全国高校学生的平均身高)。
下面再举个例子来理解什么是 无偏估计(unbiased estimator) 。
假设A市有10000名小学六年级的学生,他们进行一次考试,成绩服从1~100的均匀分布。1号学生考1分,2号学生考1.01分......10000号学生考100分。那么,他们的平均分为(1+1.01+1.02+...+100)/10000=50.5,这个值是 总体期望 ,但实际上我们并不能知道这个值,只能通过样本估计。
我们可以给A市88所小学打电话,让学校老师随机选取一名学生成绩报上来,这样就可以得到88名学生的成绩,这88名学生就是我们第一个随机选取的 样本 ,我们算出平均值,记作 。
然后我们再重新给A市88所小学打电话,重新随机选取88名学生的成绩,这是第二个随机样本。算出样本2的平均值,记作 。
然后我们重复n遍,获得n个样本均值 ,你会发现样本均值的分布符合正态分布。我们就可以用 最大似然估计 或 距估计 求得这个正态分布的期望。
而样本平均数的期望(在这里就是均值),极其接近总体的期望。我们称之为无偏估计
一次抽样计算的平均值就说是总体均值的做法就是有偏估计(biased estimator)