2019年4月读完这本书,但是两篇读书笔记没有整理完,2020年3月重新回顾这本书,并完成剩下的读书笔记。
第一部分前五章读书笔记: 《统计学的世界》第1部分 产生数据 读书笔记 1/2
最近的新冠疫情,就有很多相关的临床统计工作,去筛选和研究潜在的治疗药物,这里面都用到本书反复强调的随机对照、双盲实验。
很多临床测试没有双盲测试,就会引起大众的误解,因为已经找到有效的药物了。更不用说某某研究所只在细胞层面测试双黄连的抑制病毒效果的可笑实验了。
随机比较实验是检验新疗法是否真正有效的唯一方法!!
第6章 现实世界中的实验
关键词:随机,双盲,区组化,足够多的样本;
做实验的人则必须明确地知道自己想要的是关于哪些处理方式和反应变量的信息,并且必须构建出实施处理方法和度量反应所必需的工具。
随机对照试验,双盲测试!
随机比较实验背后的逻辑是,对所有的实验对象在各方面都一视同仁,唯一不同的就是那些处理方法。如果在其他任何方面存在不同之处,实验结果就会产生偏差,但是,要做到对所有实验对象在各方面都一视同仁,是一项很困难的任务。 【无法做到完全随机,可以使用“区组化(Blocking)”尽可能的组间完全随机!】
只要有可能,任何以人作为实验对象的实验,都应该做到双盲。
“拒绝参加者、不合作者和退出者”,这些人都会造成结果的偏差。
双盲实验 在双盲实验中,不论是实验对象,还是会和实验对象产生互动的人,都不知道哪位实验对象采用了哪种处理方式。
统计显著性+准确的领域知识,缺一不可,只会看统计数字肯定是不行的!
首先要确定的是,我们的实验结论有统计学显著性,也就是说,证据强大到仅靠机会很难发生。【仅靠随机发生的概率,就是p值。】
实验能否产生有用的信息,以及能否让人信服,这不是由统计数据决定,而是由实验人员对实验主题所属领域的知识的掌握情况来决定的。【统计分析很重要,更重要的还是人对实验的理解,操作者的知识量。】好的实验必须建立在统计原则和对研究领域的了解的基础上。
兼具配对和随机化操作的常用设计就是“配对设计”(matched pairs design),配对设计只比较两种处理方式。
区块设计(Block design)
DOE原则之一就是区组化Blocking,这是”随机化“的一种变通解决办法,因为很多测试无法做到完整的随机化,那就确保分组之间的随机化。——P491 《六西格玛管理统计指南》
配对设计是“区块设计”(block design)的一个特例。
区块设计类似抽样调查中的分层样本,区块和层都是把近似的个体聚集起来。区块是统计实验设计中的又一个重要原则。明智的实验人员会根据实验对象之间最重要且无法规避的差异,来组成区块。然后,随机化会把剩下的差异效应平均化,从而使处理方式之间能进行无偏的比较。
区块设计是分组后的随机化
因为安慰剂效应很强,所以临床试验以及其他以人作为实验对象的实验,在有可能的情况下都应该采用双盲实验。
双盲实验有助于满足比较实验的基本要求:除了实验要比较的处理方式之外,在其他方面对所有实验对象一视同仁。
许多实验的设计,比完全随机化的实验设计还要复杂。完全随机化设计是把所有的实验对象随机分配成不同的组,采用不同的处理方式。配对设计只比较两种处理方式,方法是把两种处理方式随机分配给一对类似的实验对象,或者两种处理方式先后用于同一个实验对象,但顺序随机决定。区块设计先把类似的实验对象归入同一个区块,然后分别在每一个区块中随机分配处理方式给各组实验对象。令人信服的实验,关键就在于随机化、控制和足够多的实验对象这些重要的概念。
第7章 数据伦理
关键词: 诚实,知情,被测试者的利益至上
临床实验和社会实验的一些要求,
数据收集和使用,都要符合诚实这首要原则,避免挑选数据。
临床实验时,最关键的是被测试者的利益最重要,所以如果不确定某种药物的副作用,就不应该给某些病人服用该药物而给另外的病人服用安慰剂;同样道理,
随机比较实验是检验新疗法是否真正有效的唯一方法。若不做随机比较实验,一些有风险或仅相当于安慰剂的新疗法就可能被普遍采用。
“随机、双盲和用安慰剂充当控制条件的临床试验,是评估一个新疗法的黄金标准。”
医学中的利益
医学伦理和国际人权标准都主张:“实验对象的利益,永远要排在科学和社会利益之前。”
对于以人当作实验对象的实验,仅是未来对病人有好处不能算作充分理由。
【统计学中的争议】骨髓移植疗法
医学上的经济效应是一个很大的原因。最早提供BMT疗法的是一些营利性医院,他们发布很多广告来吸引病人,其他医疗机构也很快跟进。
这项疗法对医院和医生而言,利润都很高。要记住,随机对比实验可以解答许多问题,也要记住,“实验对象的利益,应该永远高于科学与社会利益”。
2019年中国学者对人体胚胎进行基因编辑,引起了极大的伦理问题。
第8章 度量Measurement
关键词:度量,准确vs精确,偏差,随机误差,
度量的含义
用什么指标来反应我们想要的结论,也就是选择合适的统计表达数据方式。
统计学是讨论数字的。光是计划如何用样本和实验来获取数据,并不会自动生成数字。在找到回应者样本或实验对象之后,我们还必须度量我们感兴趣的变量。在此之前先要大概考虑一下:我们准备度量的是不是正确的变量?有没有忽略什么不易度量却很重要的变量?
量度是把诸如长度或就业状况等概念,转换成明确的数字的过程。
度量指的是把个体的某一性质用数字来表示。
度量的重要性
核心问题:我们使用什么指标度量某某性能,该度量的有效性如何? 比如长度、智商的度量方法。
度量也是DOE中的“检测系统Gauge”的R&R问题(重复性&再现性)。使用怎样的检测方法和具体的检测指标,才能准确又精确的反映我们要研究的问题。比如最近评估MES表活颗粒与MES原料的性能差异,关键就是选择什么指标和优化具体的测试方法。
DOE Gauge R&R考虑“线性”(linear)和“偏倚”(bias)这两个概念,进而判断检测系统是否可以“有效预测”——P399 《六西格玛管理统计指南》】
预测有效性:如果某一个指标的量度,可以用来预测跟这个指标有关的一些事情,我们就认为其具有预测有效性(predictive validity)。
比如要比较不同高等学校的教学质量,选择什么数据来度量,这就存在“预测有效性”的问题,有的度量办法并不能真的反映我们想要的结论,比如从每个学校的高一班级随机选择5%的学生进行测试,就不如从高中全年级选择10%的学生进行测试,也不如直接分析当年全部高考成绩的统计比较。
**度量时的误差 **
公式1:度量出来的值=真实值+偏差+随机误差
换一个写法,就是如下的公式
公式2:度量出来的值-真实值=偏差+随机误差
用《六西格玛管理统计指南》P396的文字换一个描述方法,其中过程和测量系统的波动,又可以分成系统偏差和随机误差两个方面。
任何实测数据的波动都可以看作过程的波动和测量系统的波动之和。
σ2 (总)=σ2 (过程)+σ2 (测量系统)
系统偏差,随机偏差
备注:偏差,或者说系统偏差,应该就是DOE中的偏倚(Bias),多次测量的理论平均值和真实值之间的差异。其次注意分清楚“准确”和“精确”不是一个概念。
减少偏差的方法就是(1)使用好的度量工具,(2)多次重复测试。
好的度量工具可以减少偏差,,又能减少测量的波动(即标准差),比如原子钟vs家用时钟。
有些变量可以通过简单的多次重复抽样提高准确性,比如身高体重和世界时间,有些偏文科的变量很难给出足够小的偏差,比如评估智商的方法就存在更大的偏差。
书中举了一个世界时间的例子,世界时间也不是绝对的,而是多个国家的时间测量机构的平均值,从而降低测量的随机误差,提供时间的准确性。
我们可以这样来看度量时产生的误差:度量出来的值=真实值+偏差+随机误差
度量的结果都有偏差,一是系统偏差,二是随机偏差(random error)。
准确和不准确量度——偏差
我们把这种每次度量时都会出现的系统性误差叫作偏差。
减少偏差,提供检测系统的可靠程度。
世界上没有百分之百可靠的测量。多个测量值的平均值,比起单次的测量结果,可靠程度更高。这就是国际计量局要用很多原子钟的时间计算平均值的原因之一。【多次测量,取平均值】
用平均值来提升可靠程度 没有任何度量过程是百分之百可靠的。相比之下,重复度量同一个体再取测量值的平均值,会比单一测量值更可靠(变异性较小)。
偏差大小是由度量工具的好坏决定的。要减小偏差,你就需要用好的工具。这种因意外状况而产生的误差,我们根本无法预测,所以它被称为“随机误差”(random error)。
第9章 统计数字会撒谎
这一部分的内容,可以说都包含在之前读的另外一本书之中,见《统计数据会说谎》读书笔记和《统计数据会撒谎》读书笔记 2/2
总结第一部分的内容,关于收集数据,我们永远要问的问题是:(1)数据是怎样产生的?(2)所度量的东西是什么?(3)我们还需要“数字感”(熟悉常见的统计陷阱),就是检验数字是否合理的习惯。
数据间缺乏一致性引发了人们的怀疑。数据过度精确或者太有规律性也会导致同样的怀疑。
清楚一个数字到底度量的是什么,并且判断一下它是不是有效量度。
这儿简单列一下这一章提及的几个重要的“统计陷阱”。
- 他们没有告诉我们什么?【只见树木,不见森林】
最常见的误读数据是在不了解整体的情况下对数据进行点评。数据不是人造的,所以信息不完整可能导致无意识的误读。
“你的患者的蛀牙肯定比其他人少50%,因为他的牙齿也比别人少了一半。”
这些例子告诉我们,数字的意思取决于上下文联系,如果你不考虑上下文联系,单独、孤立的数字不会告诉你什么。 - 数字之间是否具有一致性?
-
数字是否精确得令人难以置信?【过度精确的数字也是一个陷阱】
-
错误的结论或令人费解的结论,常常是粗心大意造成的。其中,比率和百分比尤其容易出错。
一则住宅安防系统的广告说:“你去度假的时候,小偷就开始工作了。根据美国联邦调查局的统计数据,有26%的住宅盗窃案发生在阵亡将士纪念日和劳动节之间的那段时间。”
所以,这则广告相当于在说,一年当中26%的盗窃案,发生在一年当中27%的时间里。这一点儿也不奇怪。
更新历史
2019-5-6 地铁 第8章
2020-02-23 重读第7和8章klib的highlight内容,复制精选到这儿。
2020-03-15 基于Klib内容,整理完本书笔记,第八章中补充了一些我最近在读的《六西格玛管理统计指南》的相关思考。
终于把《统计学的世界》这本书的每一部分读书笔记整理完了,后面再汇总一篇全书读书笔记,从而更进一步加深理解。