生物统计——假设检验
K.Pearson——Sir Ronald Aylmer Fisher(女士品茶,Fisher线性判别,极大似然估计,试验设计)——Neyman and E Pearson.
Fisher的女士品茶提出来的小概率标准为0.05。
什么是假设? :通过MT和TM的假设确定总体的一些参数; 什么是检验 :判断假设是否成立,是否为小概率事件。
假设检验的一般步骤 :
R中计算PValue的相关函数:
在生物信息里的例子:
两类错误和统计功效 :
1类错误假阳性,2类错误假阴性。α去真概率,β纳伪概率。
当样本量确定时,α和β是一个balance。α是定义的显著性水平,如0.01,pvalue实际是很小。而α定的十分小的情况下,β的犯错概率就大了。所以具体再平衡的过程中需要进一步考虑。例如在癌症检测时,会尽可能把H1都找出来,所以宁愿假阳性高,假阴性低,cutoff 甚至0.1。而相反的在call peak时要找到最真的peak
提高统计功效 :加大样本量(较简单),更改统计方法。
1. 在任何时候都以0.05或者0.01作为金标准
2. 设定Pvalue阈值时忽略了2类错误的犯错可能。
3. 计算Pvalue过程中,忽略了使用假设检验的基本条件。
4. 在使用PValue的时候,会忽略了假设检验的原假设。
回归分析时,原假设的两个变量是不是有相关关系(没有/有 ),而具体相关关系的大小,归到回归中解释。
主要围绕正态分布进行。大样本Z-test,小样本T-test
1. Z-score和Z变换
2. 为什么有了Z test之后还要T test? :因为通常情况下我们很难获得总体方差(最多获得总体均值的估计),往往就想通过样本方差来代替总体方差。
3. T-test两种最常见的情况 :
生物信息中常见的列联表检验问题即GO/KEGG富集分析问题