《赤裸裸的统计学》读书笔记 8-14

接1-7章读书笔记,本文是《赤裸裸的统计学》后面几章的读书笔记。

第8章 数据与偏见/131

2012年,《科学》杂志刊登了一项惊人的发现:在求偶期多次遭受雌性果蝇冷落的雄性果蝇会“借酒消愁”。那么,这些果蝇是如何一醉方休的?《自然》杂志的结论看似荒谬,但其推理过程却非常合理,本章以此为例,介绍了合理的统计数据的几个条件:

(1)获取数据:确定抽样数据的准确性,既能代表全体;(民意调查最强调这个】
(2)比较数据:通过设计实验组和对照组并进行比较,同时保证随机抽样(这就是随机对照试验)
(3) 确保数据的有用性:要有原因和结果。

本章强调了几种常见的错误思维或行为:

  • 线性思维
  • 记忆性偏见
  • 幸存者偏见
  • 健康用户偏见(是一种幸存者偏见)

第9章 中心极限定理/151

关键词:标准误差,标准差,大数定律,置信区间

本章介绍的中心极限定律,对应《看穿一切的统计学》 读书笔记的第二章“抽样调查”,抽样调查数目影响标准误差,进而对应于样本平均值概率图上,,

“中心极限定律”是一种非常重要的推理方法! 基于“中心极限定理”进行推测时,首先计算出样本的平均值和标准误差,然后进行比较——样品的平均值与总体的平均值的差距在几个标准差范围内,进而确定该结果对应的置信区间/发生的概率。

中心极限定律:大量/足够多/无数次/总体的投掷硬币(独立事件),正面朝上的概率分布总体上符合正态分布。【总体的平均值和标准差】中心极限定律

中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。——中心极限定理 – 维基百科,自由的百科全书

样本数目:

有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。如果我们想要假设群体的标准差等同于样本的标准差,那么更要保证样本数量足够多了。样本所包含的数量越多,其平均值就越不容易受到随机偏差的干扰【在《看穿一切的统计学》 读书笔记中,标准误差和抽样数目的关系,抽样数目越多,标准误差越小,大于30时,变化就比较小。】

中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异,也就是说,样本结果(随机抽取的100名学生的考试成绩)能够很好地体现整个群体的情况(某所学校全体学生的测试表现)。当然,这也是民意测验的运行机制所在。【合理数目的抽样调查,足以充分代表全面调查的结果!这就是《看穿一切的统计学》第二章的核心观点】

定量计算部分:

由于样本平均值是呈正态分布的(这一点要归功于中心极限定理),我们便可以通过这条神奇的曲线来获得推理所需的“超能力”。已知的是,差不多有68%的样本平均值会在群体平均值一个标准误差的范围之内,有95%的样本平均值会在群体平均值的两个标准误差的范围之内,有99.7%的样本平均值会在群体平均值3个标准误差的范围之内。

标准误差=标准差/sqrt(n),样本越多,标准差越小。

标准误差和标准差的关系:标准误差就是所有样本平均值的标准差。【标准误差是多次随机抽样的平均值的波动程度,标准差是样本数据的波动性。所以整体样本对应标准差,抽样样本对应标准误差。】

中心极限定理的几个应用:【本质都是一样的】

1. 如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况

2. 如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理。

3. 如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一

4. 最后,如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。

备注1:《麦肯锡教我的思考武器》中提到一个观点,“分析的本质是比较”,对应于“中心极限定律”,就是比较样本平均值和总体平均值的差距,然后用标准误差量化这个差距,从而反映在置信区间上!

第10章 统计推断与假设检验/169

关键词:基于中心极限定理进行统计推断,基于比较进行假设检验(推翻零假设)。

统计推断的关键是“显著性差异”,而“显著性检验”的前提则是“零假设”。推翻零假设的过程则用到了上一章的“中心极限定律”,只不过是和“零假设”进行比较。【显著性差异其实和置信区间、P值本质上是一个事情吧?】

但是统计推断过程不能给出绝对的“是非”,而要建立在“置信度”上,即我们接受“95%正确”还是“99%正确”。 所以我们的推断结果包含着我们对“精确度和概率”的妥协,我们需要更高的精确度,我们就有更大的概率得到否定的答案。【突出显著性差异时应该指明置信区间,95%时的显著性不如99%时的显著性】

这种妥协在具体的事情上各有差异,比如我们可以接受一些垃圾邮件以避免系统屏蔽重要邮件,但是我们不能接受太高的癌症误诊率,所以要做更多的检查,我们不能接受911恐怖袭击的再次发生,所以就有更多的误判,把普通人当成恐怖分子。

备注1: 《魔鬼数学》第二部分 推理 读书笔记最后一章同样提到“恐怖分子追捕”问题,分析的方法是“贝叶斯推理”,强调条件概率(大部分人都不是恐怖分子)导致很多普通人被视为恐怖分子。 而《赤裸裸的统计学》的分析角度完全不同,强调的是统计推理需要同时考虑准确性和概率。同样的问题有不同的表述,两本书合起来分析就更好理解了。——  2018.3.24

备注2: 《看穿一切的统计学》 读书笔记 指出,对于我们不能忍受的事情,比如癌症筛查、恐怖分子追捕,我们更倾向于使用频率思考方式,即计算绝对概率; 对于可以“睁一只眼闭一只眼”的,比如垃圾邮件过滤,我们更倾向于使用贝叶斯思维方式。

备注:令人信服的解释可以分为统计推断和假设检验。(《经济的限度》)

第11章 民意测验与误差幅度/197

民意测验是统计推测过程,用到了第9和10章介绍的“中心极限定理”和“显著性差异”。

民意调查的关键是保证抽样调查的样本能够反映整体的情况,不能避免忽略特定的群体。所以不能忽略不接电话的人,不能只在一个时间段打电话,不能询问引导性问题,不能相信受访者的所有答案(要通过合理的设计去判断受访者是否说真话),等等。

《看穿一切的统计学》也提到了民意调查的关键是保证抽样数据的完整性,这样的“抽样调查”才能很准确的反映”完整调查“的结果。

第12章 回归分析与线性关系/215

作者认为回归分析是统计推理中的氢弹级别的统计工具,本章介绍了其概念、价值和使用方法。

世界是复杂的和互相联系的,我们要分析的关系必然涉及到很多无法排除的影响因素/干扰因素,如果无意中忽略了这些影响因素,就可能得到错误的结论(第13章提到的变量遗漏偏误)。

如果要推断因素A和因素B的关系,就需要避免因素C、D等的影响,使用的方法就是本章强调的回归工具。回归工具的价值是帮助我们在复杂的关系中排除其他因素的干扰,分析两个因素(解释变量和因变量/结果变量)之间的关系。

最简单的回归工具是最小二乘法(大学期间学过吧?),使用最小二乘法获得变量AB的线性拟合关系,斜率就是“回归系数”,通过分析回归系数的正负、大小、含义来分析两个变量的关系。

回归分析的基础其实是“随机性”,通过合理的实验设计,使干扰因素随机的分布在实验组和对照组中,因为“中心极限定理”的存在而很大程度上消除了影响。

备注:回归分析的排除干扰因素的方法,是?

第13章 致命的回归错误/243

上一章介绍了分析复杂关系的重要工具——回归分析,工具本身是中性的,使用不当就会得到错误甚至荒谬的结论,这一章介绍使用回归分析常见的错误。

“尽量不要用你的回归分析研究杀人”,错误的回归分析可能起到非常糟糕的影响,比如书中介绍的“雌激素补充疗法”, 这就是极为现实的“回归分析结果杀人的例子”。

从2002年开始,医生被建议尽量避免对年长的女性病人开具雌激素类药物。《纽约时报杂志》提出了一个敏感但又有深刻社会意义的问题:有多少女性是因为服用了医生“出于病人健康”考虑开出的雌激素药片而中风或患上乳腺癌过早离世的? 回答是:“合理估计至少有上万人。

  • 错误一:用回归方程式来分析非线性关系
    回归分析的对象是具有线性关系的两个变量,即变量x和y要获得Y=kx+b,假如两个变量是波动的关系,或者先上升再下降,那就不能用回归分析方法。
  • 错误二:相关关系并不等同于因果关系。
    回归分析得到的只是相关关系,但是不能说明谁是因谁是果。
  • 错误三:因果倒置。
  • 错误四:变量遗漏偏差。
    回归分析的前提是,将其他影响因素都“随机分布”在实验组和对照组之中,假如遗漏了重要的影响因素,就会得到错误的相关关系,或者相关关系不能反映想要的两个变量之间的关系。
  • 错误五:高度相关的解释变量(多元共线性)。

第14章 项目评估与“反现实”/259

哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常春藤大学的教育优势,还是他们本身就很出色?

结束语 统计学能够帮忙解决的5个问题/277

 

One thought on “《赤裸裸的统计学》读书笔记 8-14

  1. 您觉得这个是?
    哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常春藤大学的教育优势,还是他们本身就很出色?

Comments are closed.