《简单统计学》笔记

 我来答
清宁时光17
2022-07-10 · TA获得超过1.4万个赞
知道大有可为答主
回答量:7545
采纳率:100%
帮助的人:46.6万
展开全部

都说“学好数理化,走遍天下都不怕”,我觉得极端一点理化也可以不要,但数学那是必须会的,并不用多高深,加减乘除也就够了。如果非要再加一点,那我推荐统计学——从微观量子到宏观世界,都在偶然中蕴藏着的必然——也就是概率,这种美妙的联系似乎反映了世界的一些本质。

几年前初看“大数据”相关书籍的时候,惊叹于“数据挖掘”的魔力——依靠海量数据和计算机强大的算力,人们甚至可以在不理解“因果关系”的情况下,凭借数据的“相关性”进行各种决策。

然而进一步的思考带来了新的问题:“相关性”能代替“因果性”么?数据本身不会说谎,但是对数据的加工呢?有一些看似无懈可击的分析结论,为什么自己运用的时候又不灵了?

最近读完《简单统计学》,书里通过生动有趣的例子,让这些问题或多或少得到了解答。这里把一些印象比较深刻的概念简要地总结摘录一下,为了避免太冗长(其实是懒得打字排版),许多举例部分使用了从网上找到的外链。

人类自古以来演化出模式识别技,让我们对观察到的现象进行直观解释,然而在面对现代社会的复杂数据常常是失效的,但我们对确定性的渴望导致我们:

针对第1点的一个有趣的例子: 塔纳岛的土著

针对第2点,体现在我们对 统计显著性 的迷信。

在我们掌握了“大数据挖掘”的能力之后,统计显著性不再仅仅是为了验证理论对两组对照数据进行比较的指标,研究人员开始用两种方式来“发现”统计显著性。

还有不少研究人员为了结果故意篡改、加工原始数据,这样产生的理论就更不可信了。要揭穿这些伪理论并不难,我们只需要两个武器:

然而并不总是有人这么做,因为:

总的来说, 我们有意或无意地使用不适合进行比较的数据作为对照或进行分析,以发现或验证某种(可能并不存在的)模式,从而导致了一系列的认知偏差

举例:

如何避免
通过使用对照组随机分配的方式,可以避免这种自选择偏差,然而实际研究中,往往并不能强迫人们去做自己不愿意的事情,所以我们在检查统计结果的时候要格外小心。(幸好如此)

举例:
飞机弹孔问题 、“成功学”

如何避免
考虑问题时要考虑到我们没有看到的那部分。同时对于成功原因分析,应当从过去开始并向未来展望,看看未来发生了什么。

如何避免
控制其他变量仅仅比较“用药”和“不用药”的差别,对于一些医疗场景下很难有效控制的情况,人们设计了大样本随机 双盲实验 ,尽可能消除其他因素的影响。
也可以看看关于 循证金字塔 的相关解释,了解各种研究设计和证据质量。

第1点很容易理解,特别是统计中总会有一些异常数据,对于小基数影响特别大。

第2点有时候就不是那么直观,当我们在统计时对数据进行聚合和分解,可能产生一意想不到的差异。可以看下下面的例子。

那究竟谁是更好的击球手呢?应该还是科里,因为分解数据使用的“单双日”只是数据拆分的一种巧合而已,整体安打率才是一个选手优秀程度的表现。

所以当我们使用比率进行统计分析和比较的时候,一定不能忽视比率背后数据,以及刚才例子中“单双日”所代表的的 混杂因素

前面提到的击球手的例子正是如此,如果我们反过来看,先看整体安打率,再分解为单日、双日,就会发现模式确实发生了逆转。上例中的问题在于,用于分解数据的“单双日”并不是一个有效的“混杂因素”,这种区分本身没有任何意义。但是有时候,能够准确识别“混杂因素”,对数据分析有巨大的意义。

举例:

如何避免
在我们利用数据来得出理论和结论的时候,要特别小心,注意数据背后是否有自选择偏差或是未被发现但有实际意义的混杂因素,只有将他们分解出来再进行对比才能真正确认理论的因果是否合理。

在这里我们还要警惕 证实偏差 :指当人确立了某一个信念或观念时,在收集信息和分析信息的过程中,产生的一种寻找支持这个信念的证据的倾向。要做到不先入为主的客观思考,才能更好地发现数据的本质。

书里还有一些有意思的内容,限(yin)于(wei)篇(wo)幅(lan)没法一一摘录出来,即使摘录出来的部分,书中的一些数据图表和小故事也值得一看。

总之,我给4.5星,推荐阅读(最后几章的内容和理论似乎有些重复)。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式