作者: [日]西内启
出版社: 中信出版社
译者: 朱悦玮
出版年: 2013-9
在去年的《魔鬼数学》基础上,今年初开始同时读《赤裸裸的统计学》,《看穿一切的统计学》,《随机漫步的傻瓜》等概率相关图书,四月份读完前两本,整理读书笔记于此。
第一章介绍了统计学日益重要的大背景,这是一个数据爆炸和不确定的时代。第二章介绍如何收集数据,即“抽样调查”方法,通过“标准误差公式”强调了达到一定抽样数量后的标准误差足以媲美完全调查; 第三章介绍如何分析数据,强调了分析数据的两个原则:适当的比较,考虑误差(p值);不考虑误差的比较都是不准确的!第四章介绍了具体的统计实验方法即随机对照实验,通过随机可以控制误差,提高准确性;通过对照进行比较,比较方法同第三章;第五章介绍了广义统计方法,根据解释变量和结果变量的类型(连续值或二值)选择对应的统计方法; 第六章介绍了统计思维的几个应用场景,并强调了频率思维方式和贝叶斯思维方式的方法和使用场景。
最值得强调的几个要点:
- 分析的本质在于比较
- 比较有两个原则:一是适当的比较(两个数据的对比),二是要考虑误差!
- 考虑误差,误差来自于波动性;通过比较误差和当前差距,确定是显著性差异还是随机波动带来的差异。
- 比较的实验方法就是随机对照试验,一是随机,而是比较
- 广义统计方法的几个具体方法(t检验,卡方检验,回归分析,逻辑分析)及应用场景
- 两种概率思考:概率派和贝叶斯派,分别的计算方式和适用场景
几个统计学术语:regression coeffcient(回归系数)、confidence limit(置信区间)、p–value(p值)、significant(有效,显著性)
第一章 为什么统计学是最牛的学问?
本章主要观点:1. 统计学很重要, 2. 哪些学科用到了统计学知识:医学,教育和很多其他学科,
数据爆炸的时代,数据不再是制约因素,统计学得到了快速的发展。
“1903年,赫伯特·乔治·威尔斯曾经预言,在未来社会,统计学思维将像阅读能力一样成为社会人必不可少的能力。
科学的回答问题的方法是“用数据说话”,收集和分析数据的过程,就是利用统计学知识的过程。
很多领域都需要统计学思维方法。越是复杂系统,越需要统计学思维。因为复杂系统存在大量互相联系的数据,更需要数据分析以确定相关性和因果关系。
第二章 大幅减少信息成本的抽样调查
关键词:抽样调查,标准误差,标准误差计算公式,样本数和抽样准确性;置信区间,p值
本章核心观点:(1)收集数据的两种方法,全面调查 vs 抽样调查。并非调查样本越多越好,使用更少的数据的抽样调查可以获得足够高的准确性,避免全面调查的费时费力不经济性甚至不可能性。(2)介绍抽样数量和标准误差的定量关系,使用标准误差的计算公式,计算抽样调查需要的最少抽样量。
举例:如何通过抽样调查研究失业率,随机选取人口总数的0.5%进行抽样调查, 国家的很多宏观经济数据也是使用类似的抽样调查;
详细介绍了抽样调查结果的正态分布,及标准差的计算方式,不同置信区间下的概率。
标准误差(Standard error):反映不同的抽样次数(统计量)的结果分布的离散程度。【标准差sd,则是单一的抽样的测试结果的波动性】
标准误差的计算公式:
标准误差的使用方式:
从抽样调查中得到的比率(比如说失业率)是用标准误差除以2得到的数值,因此只要将算出的标准误差结果乘以2就是真实比率的范围。这一数据的可信度高达95%。
比如说抽样调查的结果显示失业率为25%,假设其标准误差为0.5%,那么全面调查得到的真实失业率数值应该在24%~26%之间,这一数据的可信度高达95%。
将算出的标准误差结果乘以2就是真实比率的范围,这一比较的置信区间是95%。
【【补充:为什么标准误差乘以2,因为“95%置信区间,和2倍标准误差”。—— 2018.5.4】】
图2–3 抽样人数对标准误差的影响
抽样人群越多,标准误差越小,抽样成本越高,所以存在抽样人数与成本之间的平衡关系,抽样前,“先找到为了进行正确的判断所必需的最少数据”。 【Balance!】
当抽样人数只有100名的时候,标准误差为4.6%,那么“顾客中女性比率占70%”的结果实际上在综合考虑后就应该是“女性比率占61%~79%”。但是当抽样人数增加到1 000人时,标准误差就降低到1.4%,综合的结果为“女性比率占67%~73%”;当抽样人数增加至8 000人时,标准误差为0.5%,综合的结果为“女性比率占69%~71%”。
而在此基础上“继续增加抽样调查人数对标准误差的影响越来越小”,当抽样人数为1万人时,标准误差为0.4%,抽样人数为2万人时,标准误差为0.3%。
Q:标准误差(standard error)和标准差(standard deviation)的关系?
A:
备注: 图2-3 抽样人数和标准误差的影响,对应于《赤裸裸的统计学》的“中心极限定律”,如果抽样人数足够多,标准误差很小,最后的结果就会非常接近理想值。
第三章 统计学的关键:误差与因果关系
第二章介绍了使用抽样调查获得数据,第三章开始介绍了“如何分析数据”,强调了分析数据的两个原则:适当的比较,考虑误差(p值)。
“进行适当的比较”、“不只进行单纯的收集统计,还清楚误差与p值”,只要掌握了这两点,就能够找到远超经验与直觉的秘籍。【数据分析的两个原则。】
关于”比较“,值得强调的是《麦肯锡教给我的思考武器》中有一句非常经典的结论——
“分析的本质就是比较”,定量比较又可以分为三种类型(比较,含量,随时间变化)。
那么,我们究竟应该对什么样的数据进行比较,并且从中找出产生区别的主要因素呢?答案其实很简单。只要将“能够达成目标的事物”和“不能够达成目标的事物”进行比较即可。【Q:收集和比较什么数据?】
关于“考虑误差”,“不考虑误差的统计都是不准确的”。 误差对应的是“随机性和波动性”,结果是否有意义(对比是否有显著性差异),需要看p值!
对于像这样的交叉表,要想知道究竟是“有意义的区别”,还是“误差导致的区别”,就需要用到一种被称为“卡方检验”的分析方法。
“实际上没有任何区别,只是因为误差或偶然产生数据差(甚至有可能包括极端的差距)的概率”在统计学上称为p值。
这个p值越小(一般在5%以下),数据就越准确,证明其不是偶然导致的结果。
试验员进行的这种测试,其实就相当于一个人只投了一次硬币刚好正面朝上,因此就欣喜若狂地声称“了不起!我找到了一个能够连续投出正面的魔法硬币”或者“了不起!我拥有了连续使硬币正面朝上的魔法”。
另外需要强调的是,分析的结果只是获得相关关系,不能得到两个变量的因果关系。
第四章 最强的统计学武器:随机对照试验
随机对照实验是上一章介绍的”比较工具”,强调比较要以随机的方式来设计,从而降低误差。
随机对照试验是统计学最重要的武器,随机对照实验是一种比较工具,通过合理的实验设计(实验组和对照组)获得准确的比较结果。实验设计的一个关键是“随机”,因为随机可以控制误差,随机化可以确保其他变量之外的各条件一致(更不容易被其他影响因素干扰)。【随机和误差的关系】
“当各个条件随机化之后,希望进行比较的两组之间就会有大致相同的状况。而唯一不同的条件,就是我们希望通过试验进行控制的变量(比如是否使用肥料和使用多少肥料)。
之所以说统计学是“最强的学问”,是因为其拥有较高的适用性,也就是说不管在政治、教育、商业还是体育等领域,统计学都能够以最快的速度帮助我们找到最佳答案。而前文内容中介绍的能够对任何因果关系进行科学验证的“随机对照试验”,则刚好为统计学的适用性提供了强大的理论依据。
甚至可以说,费希尔创立的随机对照试验这一方法论,彻底地改变了科学领域所能涵盖的范围。
自从有了费希尔创造的试验设计,不管是心理学、教育学还是政策学,甚至与我们的工作直接相关的经营学,这些以十分复杂且充满误差的人类为研究对象的科学,在20世纪已经遍地开花。
随机对照试验是一种科学工具,因为随机对照试验拓展了传统的“试验”研究方法。
科学方法论的重要特征——“观察与试验”。“观察”就是对目标进行详细的观看和测量,并且从中找出真相的行为。“试验”则是在改变各类条件的前提下对目标进行观察的行为。
随机对照试验的应用:
举例1:“妇人和奶茶的故事“,先放热红茶和先放冷牛奶, 味道是否一样? 如何通过随机对照实验来判断。
举例2: 公司要决定“两件商品九折”的策略是否有效,就可以通过随机对照实验的方法来判断,而不是主观臆断。
举例3:航空公司评估客户服务方式的效果
比如美国大陆航空公司,针对飞机晚点时应该采取怎样的客户服务,就进行了随机对照试验。
他们将面临这些问题的旅客随机分为3组。第一组是“只发送正式的道歉信”,第二组是“除了道歉信外还特别赠送一段时间的免费会员服务”,第三组是“没有任何回应”。
但是很多实验无法做到真正的随机,会面临现实、伦理、感情等的障碍。
第五章 无法进行随机对照试验时该怎么办?
关键词:卡方检验,t检验,方差分析,回归分析,逻辑分析,置信区间与p值,零假设,交互作用,倾向指数
“科学是由观察和试验组成的”,除了基于随机化对条件进行控制的试验之外,单纯地进行观察也可以发挥统计学的巨大力量。【第四章介绍的是试验方法,第五章介绍的是“观察方法”,以流行病学方法为例】
卡方检验:
展现数据之间的关联性,检测是否属于误差范围的所有方法,大体上都可以看作回归分析的一种方法。
回归分析:父母身高和子女身高的关系,均值回归,回归曲线,回归系数。 和 《魔鬼数学》第四部分 回归 读书笔记 内容一致。
均值回归现象源自随机性的存在。随机性存在于我们难以完全控制的方面,比如运气,比如客观的一些事情(自然灾害等),所以体育运动员的成绩随高低波动(奥林匹克魔咒),实力可以弥补变差的运气,当然更好的心态控制也能降低运气的波动性。有点类似于《身心合一的奇迹力量》一书的观点,通过控制状态和放松直觉大脑来改善成绩。
回归系数的波动性/随机性:费希尔提出,通过回归系数来推测“真值”,并使用误差来判断推测准确性。【回归系数是否可以反映普遍规律】(书中分析了两个回归系数相同的数据表,其中一个数据点很分散,所以标准误差很大,p值很大。 表5-2,表5-3)
费希尔将“如果拥有无限的数据就能够得到的真正想要知道的值”称为“真值”,并且通过对偶然得到的数据进行计算的统计量能够在多少范围的误差内推测真值进行了数学上的运算,最终发现在数据有限的情况下做出适当判断的方法。
通过现实数据得到的回归系数之类的统计量,相对于真值来说只不过是一个适当的估计值,如果在估计之外更进一步地检测这个数值与真值相比有多少误差,那么至少能够降低我们做出错误判断的风险。
这也是费希尔在随机对照试验之外,为统计学做出的另一项伟大贡献。
广义线性模型
统计学的目的在于从基于公平条件的比较中寻找出现区别的要素,那么只要能够找到在解释变量中,希望进行比较的结果变量,就能够非常简单地找出应该使用的统计学方法。
连续值:比如以身高、考试成绩、消费额等为结果变量。
二值:以“是”和“否”为结果变量的情况,比如性别、是否单身等。
t检验: 计算p值和置信区间
方差分析:
回归分析:比如上面所说的父母身高(连续值)和子女身高(连续值)的关系。
多元回归分析:同时分析多个解释变量对某一个结果变量的关系,比如分析父母家庭收入和参加培训班次数等多个解释变量和学生成绩(结果变量)的关系。
逻辑分析:结果变量是二值的回归分析方法,例如“针对是否会得心脏病这个二值的结果变量,许多解释变量(血压、年龄、是否吸烟等)都会对其产生影响。”逻辑回归大体上的思考方法就是将原本为0或1的二值结果变量,变换为连续的变量进行多元回归分析。
任何方法都应该得到相同的p值:有些分析可以同时使用多种方法,比如用t检验的两组数据标记也能用回归分析分析,但是都有相同的p值。具体举例见图书原文。
重读:20 所有领域都可以应用的回归分析法
逻辑分析方法,读的有些不太懂,回头再读原文吧,网上找几个例子。
最后的交互作用和倾向指数,看懂却不知道怎么用,暂时放弃。
第六章 应对一切问题的统计学思考方法
关键词:概率思维,频率思维,贝叶斯概率思维
本章介绍了以下几种使用统计学思维方法的领域,并介绍了每个领域的侧重点。
- 把握实际动态的社会调查法。
社会调查方法强调收集数据的准确性,避免抽样结果不能反映整体,这一部分内容和《赤裸裸的统计学》的某一章很相近,后者细数了社会调查中的一些陷阱;
- 为了找出原因的流行病学——生物统计学。
生物统计学强调对现有的观察数据进行全面分析,不拘泥于数据的完整性,结论也强调有明确的适用范围。
- 检测抽象概念的心理统计学。
心理统计学强调了像智商IQ这类的分析, - 进行机械化分类的数据挖掘。
比如分析“啤酒和尿布的关系”,比如分析顾客的购物习惯来预测消费者喜好等,比如使用贝叶斯推理方法判断垃圾邮件的计算方法 - 对自然语言进行处理的文本挖掘。
论文“查重”就是一个文本挖掘的应用, - 关心演绎的计量经济学
计量经济学建立子某些假设上,比如“经纪人假设”,所以是一种演绎推理。而其他大部分的统计都是归纳推理。
一般情况下,科学的推论形式大体上可以分为归纳与演绎两类。总体上来说,归纳就是将个别事例集中起来推测出统一规则的方法;演绎则是基于某种事实和假设,通过推理导出结论的方法。【想起了《金字塔原理》,演绎和归纳是两种基本的思考方式。】
然后作者用“真正的硬币和老千硬币”的例子介绍了两种概率思维方式:贝叶斯派与频率派,非常有意思。
如果将两者之间的区别用一句话来概括的话,那就是“是否在事前预测某种概率”。概率派是围绕概率本身的思考方式,指在“无数次的试验”中出现结果的“频率”。而贝叶斯派是在“事前概率”这个假设的前提下,就可以根据数据进行演绎。
为了理解两者之间的区别,让我们假设有两种硬币。一种是出现正面和出现背面的概率都是50%的“真正的硬币”,另一种是出现正面的概率是80%、出现背面的概率是20%的“老千硬币”。我们假设这两种硬币的外形和重量完全相同,然后各投掷一定的次数,对出现的结果进行统计和分析,判断究竟是哪一种硬币。
如果投掷10次全都出现正面的话,那么这枚硬币究竟是真正的硬币还是“老千硬币”呢?频率派首先会假设“这枚硬币是真的”,然后根据这个假设计算投掷10次全部正面朝上的概率。“在正面朝上的概率达50%的条件下,偶然10次全部出现正面朝上的概率是2的10次方分之一,也就是只有0.10%。”这和前文中出现的那个妇人“猜对全部10杯奶茶的概率”是一样的,这个0.10%的概率也被称为p值。那么相比这个堪称奇迹的概率,否定“这枚硬币是真的”的假设才是比较理智的判断吧。
接下来,假设“这枚硬币是老千硬币”,进行与之前同样的计算。“正面朝上的概率达80%的条件下,偶然10次全部出现正面的概率是10.74%”。p值为10.74%的话,就算不上是奇迹了。所以,这个假设是可以成立的。
既然“这枚硬币是真的”的假设不成立,而“这枚硬币是老千硬币”的假设成立,那么就可以认为这枚硬币是“老千硬币”了吧。
贝叶斯派在对这枚硬币进行判断的时候,首先会在没有任何信息的时候考虑这枚硬币有多大的概率是真硬币或“老千硬币”。这种概率被称为事前概率。事前概率的数值是多少都无所谓,暂时假设概率为50%。然后根据和之前相同的“10次投掷全部出现正面朝上”这一结果进行推测。
前半部分的计算过程和结果与频率派完全一样,最后都是0.10%和10.47%,但接下来的结算方法就有所不同了。
贝叶斯派会将附加结果计算出来的概率分别乘以事前概率。
根据10次全部出现正面朝上的数据来进行计算的话,有99.1%的概率是“老千硬币”。这个
贝叶斯派和频率派的使用场景
与之前所提到的那些不同领域间的思考方法一样,贝叶斯派与频率派之间也没有对错之分。通过对有限的信息与假设进行组合,追求“效率”的时候使用贝叶斯派的思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。
根据到目前为止介绍过的领域,社会调查、流行病学、生物统计学、心理统计学等领域中频率派比较多,计量经济学家则大多数属于贝叶斯派,数据挖掘专家虽然没有特别的分类,但是比较倾向于贝叶斯派
在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。在“就算稍微有差错也无所谓,只要能够迅速地进行判断就好”,因此使用贝叶斯派的方法更加合适。
在这种不允许出现错误的判断之中,假设“有50%的概率有效”的事前概率是非常不明智的,因为所有可能导致因果推论出现错误的假设,都应该极力避免。
贝叶斯派的应用举例:垃圾邮件筛选。
备注:在《魔鬼数学》第二部分 推理 读书笔记中,介绍了贝叶斯推理用于筛选恐怖分子产生的巨大错误,大部分被筛选出来的恐怖分子都是平民,同样道理,贝叶斯推理用于判断真阳性还是假阳性的时候(“一个人被诊断为疾病阳性,而改疾病在人群中的发病率是万分之一”),也会产生很大的误差。 为何? 《看穿一切的统计学》告诉我了贝叶斯思考的适用范围,对于“不允许出错”的情况,贝叶斯方法方法不太好,因为我们不能接受小概率事件。
第七章 帮你站在巨人肩膀上的统计学
作者介绍了实证的等级,不同级别的证据对应不同的准确性,最好的办法是“‘meta–analysis or’ ‘systematic review’”(“‘荟萃分析’或‘系统评析),也就是“同时结合多个证据”,然后给出了互联网上的一些学术资源和搜索方法。
备注:关于“荟萃分析”,其他书中有类似的结论,决策时不要只看一方面的证据,同时结合专家观点、个人经验等多个证据,可以做出更好的判断。
2018.4.2 用自己的总结第二章和第三章的核心观点。
2018.4.10总结第四章
2018.4.19 更新第2,3,4章。
2018.4.21 更新第2,3,4章,整理5,6章,写全书总结,done
2018.5.4 更新最开始的每章介绍,补充第二章内容,和“中心极限定律”的关系