统计数字会撒谎-读书笔记
我们每天都会看到各种各样的数据,但是数据的真实性、可信性,就需要我们擦亮双眼了。
数据本无对错,通过本书,我们可以更好的识别出日常哪些数据是有问题的。
用事实说话,日常生活中,我们会接触到越来愈多的 统计数据和资料 ,其中,不乏有人对数据进行造假,我们要学会甄别。
事实往往在所见所闻之外
数据来源的样本就是有偏差的,根据有偏差的样本得出的数据结论,也是不准确的。
样本数据和整体数据之间的差异
一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本 ,这种样本排除了各种误差
最基本的样本是随机样本,它是指完全遵循随机的原则从总体中选出样本。随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本。
和平均数有关的一些谬误,通常会和平均数的算法有关。
通常意义上的平均值就是指算数平均值
而平均值有时并不能代表整体情况
主要指样本容量不充分,小样本数据同样不能代表整体。
可能误差、标准误差
我们不能忽略数据背后可能存在的误差
由图表引发的一些误导性结论。
通过修改图表的坐标轴,比如修改起始点,隐藏坐标轴等方式,让人产生错觉,得出错误结论:
类似的手法,还有使用图形化的方式,图表会更好看,但也更容易产生迷惑
很多结论和数据是不匹配的,这类似于挂羊头卖狗肉,这都是一种思维谬误,猛的一听,很容易相信,但是仔细想想,就会发现其中的问题。
比如这个死亡率的例子,参军真的更安全吗??
肯定不是的,这个数据不能说明什么问题,进行对比也是没有价值的。参军的都是年轻人,留在城市的都是老人、小孩儿,人群都不一样,有谈何对比呢?