《统计学大师之路》:在趣味与实践中学习统计学

图片

标题:统计学大师之路

副标题: 乔治·博克斯回忆录

作者: [英] 乔治 • 博克斯(George E.P. Box)原作名: An Accidental Statistician:The Life and Memories of George E. P. Box译者: 朱磊磊

图书简介:乔治·博克斯(1919—2013)是二十世纪下半叶的统计学大师之一,在实验设计、时间序列分析、统计控制和贝叶斯推断等方面做出了重要贡献,深刻影响了统计学、工程学、化学、经济学和环境科学等领域的理论和实践。本书是他在晚年所写的回忆录,其中回想了他的成长经历以及偶然踏上统计学家生涯并从产业界走向学术界的过程,追忆了他与二十世纪的一些重要统计学家的交往和合作,并分享了他对于统计学、教学科研、创新等话题的思考。我的阅读推荐:作者乔治·博克斯,从小立志成为一名化学师(穷人家的孩子读化学?),“偶然”读过Fisher的书,一开始没看懂;二战期间,因为化学背景参加生化防御研究,学习和实践Fisher的试验设计思想,进而立志成为一名统计师;战后加入企业界,发展了一系列的统计工具,比如演化式操作、响应曲面法等;之后进入学术界,使用统计学解决实际问题,顺便发展新的统计工具,桃李满天下,著书立说。

总而言之,这是一本相当精彩的自传,既有趣味性,又有知识性;寓教于乐,在阅读中学习,这本书是最好的例子。

这本书的趣味性,具体见下面的故事摘抄,正是这些故事让本书读起来轻松愉快,当然有些经历并不有趣,比如作者差点被送到新加坡参加二战;

这本书又很有知识性,而且知识不枯燥,有些知识对我来说是全新的,比如“演化式操作”和“时间序列”;有些内容是教材中难以读到的背景知识,比如Box-cox转换、Rank-sum test、试验设计的发展史;知识密度最高的是第十二章”比尔·亨特和实验设计的一些想法“,值得反复阅读。趣味性和知识性之外,本书最最最重要的启发是:统计学是一种科学方法论,需要在工作中学习和使用统计学(当然生活中也很有用处)。

> 我认为统计学是关于如何解决工程、化学、生物和农业等领域中的“实际”问题。不论是在波登当实验站,还是在ICI,我的日常工作就是使用统计学解决实际问题

《实验员的统计学》中有一段讨论方法论(Knowledge of strategy)和专业知识(subject matter knowledge)的内容,非常好的解释了为什么实验者要学习统计学。(以英文为主,中文翻译得生硬)

Knowledge of strategy parallels knowledge of statistical methods in scientific investigation. Notice that without knowledge of strategy you can always play the game, although perhaps not very well. Whereas without subject matter knowledge it cannot be played at all. However, it is by far best to use both subject matter knowledge and strategy. It is possible to conduct an investigation without statistics but impossible to do so without subject matter knowledge. However, by using statistical methods convergence to a solution is speeded and a good investigator becomes an even better one.

策略知识平行于在科学研究中的统计方法的知识。注意,没有策略知识你总能玩这个游戏,虽然多半玩得不好,而没有主题知识就一点也不能玩了。然而,到目前为止,最好是应用主题知识和策略知识这两者。没有统计有可能进行一项研究,但如果没有主题知识就不可能做研究。但是,通过用统计方法会加速趋向于问题的解并且一个好的研究者会变成一个更好的研究者。

——《实验员的统计学》

现实情况则是割裂的,学统计的学了一大堆公式,在现实世界中常常找不到用武之地;学数理化的则只懂一点统计皮毛,至少刚毕业时的我就是如此。读完本书,我有一个粗浅的推论:“应用统计学”不是一个好专业。如果放在数学学院,大概率变成Box担忧的“理论统计学”的天下,过于理论,和应用脱节。 如果放在理工农学院,则没有重要到成立一个专业,也不符合目前“大专业”的趋势。最好的结果就是,在理工农医等学院中,单独开设一门实验统计课程,注重理论和应用的是平衡,学习“利用统计设计和数据分析来解决问题”。随之而来的新问题是,教授这门课的老师,大概率又是理论统计学家,而非应用统计学家… 不过对于职场中人,这些烦恼已经无所谓,想学知识总有办法(比如阅读《实验员的统计学》,虽然翻译很差…),更难的是获得实践的机会。

把统计学归入数学科学是一个严重的错误。相反,它应当被视为科学方法本身的一个催化剂。适当的统计学学位预试应该像上面所述的中级科学测试,也就是说,应当包括实验的实际操作。 p19


阅读随想结束,以下是图书摘抄部分。

前言

有个故事说,一个个子很高的人和他的四岁儿子去门口捡当天的报纸。父亲突然意识到儿子难以跟上自己的步伐。他说:“抱歉,汤米,是不是我走得太快了?”小男孩则说:“不,爸爸,是我走得太快了。”这个内容可以从两个角度来看:作为一个有趣的故事或笑话,或者作为对于科学发现本质的很好揭示。小男孩对于当时情况的判断是正确的,但不是显见的。父亲的判断是显见的,却是错误的。所以科学洞见和幽默在这里不谋而合或许不是巧合。好的科学是一种机智,是认出了大自然在我们身上所开的玩笑。在我九十三岁时,我还是能从过去举出不少这样的例子的。书中趣事在一次这样的会议上,我突然想到了一个别人似乎没有想到过的想法。所以尽管我还是一名学生,我还是举手示意,并在会议主席的同意下,借助粉笔和黑板,花了大约三分钟时间阐述我的想法。会议刚结束,一位陌生人走到我身边,对我说:“我是乔治·巴纳德。今晚你有安排吗?”我说:“没有。”他说:“那走吧,让我们一起喝点酒,吃顿饭。” p45 「参加学术讨论会,得到教授的赏识并成为良师益友」 


那时在我看来(现在也是如此),统计学上的新发现往往是解决一个科学问题的意外收获。所以在罗利的那一年,斯图和我帮助一位化学工程师进行他的研究。他名叫弗雷德里克·菲利普斯·派克博士。他很有幽默感,所以我们相处得很好。他告诉我,他是那位首次勘测派克峰的派克中尉的远亲。派克还说,他年轻时一直很想登上派克峰,并曾经开着他的那辆老车到了接近峰顶的位置。当他准备开车返回时,有人打开车门坐在了副驾驶座上。这个陌生人想搭车下山,并且很明显他醉得不轻。所以派克就捎上了他,而在下山途中,他告诉了派克他的最近遭遇。他三天前离开家,而在离家之前,他跟妻子大吵了一架,其中牵扯到了邻居和亲戚。他们又默默赶了一段路,然后大约旅途过半的时候,他的乘客问派克是做什么的。派克说:“我是一个读心者。”醉汉说他不相信,所以派克就把醉汉之前告诉他的复述了一遍。不出派克所料,他的乘客已经忘了自己曾说过这些事情,因而他开始变得一脸警惕。最后,当派克把醉汉送到家时,他的乘客下了车,然后又怒气冲冲地回来,并说道:“我现在明白这是怎么回事了。你知道所有这些事情,只有一种可能性。那就是你肯定与我的妻子有染。”这时他看上去有点危险,所以派克赶紧开车离开。   p74


有一天早上,我出操晚了点。当我赶到时,我们被要求排成一列。一名士官将队列分成了两半。前一半被派往当时我们并不知道的地方,我所在的另一半则留了下来。后来我才发现,前一半士兵被派往新加坡,后者在1942年2月15日被日军攻陷。他们都沦为战俘,绝大多数人此后再无音讯。 p30 「当然这个故事绝非有趣,而是感慨命运的随机性和作者的幸运」当杰西和我从北卡罗来纳开车前往芝加哥时,我的驾车技术还不足以应付拥挤城市的路况。我在交通高峰期把车开到了繁忙的卢普区。我想右转,但每次交通灯变换时,都有一大群人过马路,而我想不出来如何才能不轧过他们而右转。最终,一位警察来到我的车窗边,说道:“我说,老兄,我们的信号灯颜色就没有一个你喜欢的?” p79史蒂夫和我后来相识,并发现我们都认同,统计学与计算机科学能够相互互动和补充。所以我们基于这个想法一起向各个资金来源申请资助。我们与很多资助机构进行了商谈,并最终从NSF那里获得了一些钱。(当我们与这些机构商谈时,我可能有点说得太多,因为史蒂夫相当直白地告诉了我这样一个故事。有两个听众听一个人讲演,在大约五分钟后,一个听众对另一个说:“让我们资助他二十美元吧。”在十分钟后,他说:“让我们资助他五美元吧。”在二十分钟后,他说:“我们还是不要资助他了。”我领会了他的暗示。) p108 「知识分子之间的隐喻交流,哈哈」麦迪逊拥有众多湖泊,家家户户一年四季都能充分利用这一点。在孩子们还小时,我买了一艘小帆船,所以海伦和哈里从小就学会成为熟练的水手。到了冬天,我们也会到湖上去。有一次,那时海伦还很小,她和我一起在门多塔湖的冰面上散步。在经过很多冬钓的人身边时,海伦要逐个去瞧每个桶,看看这些人钓到了什么。每看到一个空桶,她就兴奋地大声喊道:“这个人什么也没钓到!这个人也什么没钓到!”我当时觉得我们会被揍的。p111刁锦寰的逻辑头脑在下面这个故事中得到了很好体现。哈佛大学校园对于停车有严格规定。有一次,锦寰和我需要把一部又大又重的磁带录音机从车上搬到商学院,所以我们想把车停得尽量近一点。我们找到了一个完美的地点,但那里不允许停车。旁边的警告牌说:第一次违停会收到一张黄牌,第二次会收到一张红牌,第三次就会被取消在校园内停车的权利。当我告诉锦寰我们不能在这里停车时,他说:“我们可以的——并且是两次。” p158(《爱丽丝漫游仙境》中的)爱丽丝是小女孩的完美榜样,她勇敢且独立。此外,书中还有一些妙句,值得我们所有人,或许尤其是科学家,牢记在心。比如,如果你不关心要去哪里,那么任何路都能带你到达目的地。p163在从特拉维夫乘机飞往开罗时,我们提前四个小时来到机场,因为戴维告诉过我们,以色列的机场安检需要很长时间。队伍几乎一动不动,因为每个人都被仔细诘问和检查。我已经不记得我们是如何熬过这漫长等待的,但维贾伊·奈尔记得我说过一个“圈内笑话”:“我一直没有实际见到过一个平稳过程,但现在我见到了。”当最终轮到我们进行安检时,一名全副武装的长官仔细询问了我们。我们解释说,我们要前往埃及,在国际统计学会的会议上宣读论文。他便要求我们每个人讲几分钟报告的内容,所以我从公文包里取出几张用于透镜式投影仪的胶片,然后做了一个即兴演讲。p234在西班牙,我们与玛丽安、阿尔韦托和孩子们一起庆祝各种节日。有一个新年夜的习俗我觉得尤为有趣,我们要在午夜,就着十二下钟声吃十二颗葡萄,一下一颗。据说这会给来年带来好运,但我没有及时吃完葡萄,所以我也就没有机会判断这说法是真是假。 p277自学和实践试验设计,立志成为一名统计师(二战期间)陆军里有人发现我有化学背景,于是我得到命令,前往波登当的化学防御实验站报到。波登当位于英国南部,靠近索尔兹伯里。当时人们充分预料到德军最终会在战场上使用毒气,而实验站的目的就在于找出应对措施。

一开始,我的工作是在动物实验中进行生化测定。我收到的实验结果变量非常多,所以我告诉卡勒姆宾,我们需要一名统计师来学分析实验数据。他说:“确实,但我们找不到这样的人。对此你知道些什么?” 我告诉他,我曾有一次试着阅读一个名叫R.A.费希关尔的人所写的这方面的一本书,但我当时没读懂。他说:“你喜欢读书,那你来做这个吧。”所以我说:“遵命,长官。” p32「多读书,多闲书,说不定就是未来的灵感来源,甚至成为了生存技能呢。」

我写信给陆军教育部队求助,他们给我送来一些统计学方面的书籍,我都仔细研读了 ①。我很快意识到,我们的问题不只是统计分析的问题,还有我们需要利用统计原理做好实验设计的问题。 很快,我被配备了几名助理,而在剩下的战争期间里,我都在负责设计、主持以及帮助进行实验,既有在实验室里的,也有在模拟战争的试验场上的。因此,我改变了计划,从打算成为一名化学家,转而立志成为一名统计师。 p32 「现在有了简单易用的统计分析软件比如Minitab和Design Expert,Box意识到的问题变得更加突出——试验设计的重要性远超统计分析。」 ① 其中两本是费希尔的《实验员的统计学方法》(Statistical Methods for Experimenters)和《实验设计》(Design of Experiments)。(一个随机完全区组设计的绝佳例子)一小滴路易氏剂就足以让你的眼睛在很短时间之内失明。这项研究正是试图通过利用兔子眼睛做实验来找出最佳治疗方法。这里的难点在于,尽管一只兔子的两只眼睛具有可比性,但不同兔子的眼睛之间却没有。我设计出了一个复杂的实验,使得在考察所有重要的治疗方法时,别的变数都已经被消除,只剩下一只兔子的两只眼睛的区别。对此,我感到相当自豪。 p35 「“别的变量都已经被消除”,具体方法就是试验设计的三大原则。这个故事还有有趣的后续,给准备阅读本书的人留个悬念」使用统计学解决实际问题(毕业加入ICI公司)在ICI工作的八年是我一生中最快乐的时光之一。在 ICI的众多产品中,其中有合成染料、涂料、防水剂和防虫剂。许多由化学家和工程师组成的专家团队积极致力于开发和改进与这些产品相关的化工生产过程。我很快与他们打成一片,并能帮助他们提升实验的效率,既有在实验室阶段的,也有在大规模生产阶段的。通常百分之一的收率提升也能够带来巨大的经济收益。而为了帮助他们设计出有效的实验,我需要掌握生产过程和测试方法的具体细节,所以我每天爬上爬下,与技术人员和生产线上的工人交流和争论,并传授他们一些实验设计和统计分析的知识。 我非常享受解决这类与试验设计相关的复杂问题的过程。 p49那时在我看来(现在也是如此),统计学上的新发现往往是解决一个科学问题的意外收获。 p74要想成为一名好的统计师,仅仅有好的数学基础是不够的。p103(在麦迪逊分校教授统计学课程)从一开始,我就想让我的学生知道,他们正处在一个蓬勃发展的运动的最前沿;在其中,统计学在科学研究中扮演了至关重要的角色。我想让他们理解,统计学是新知和发现的催化剂,在科学和工程领域有着许多有用的应用。此外,我还想让我的学生把他们的想法带到课堂之外,就它们展开讨论和争辩,并去见见那些应用统计学家,看看他们是如何解决问题的。p105我认为统计学是关于如何解决工程、化学、生物和农业等领域中的“实际”问题。不论是在波登当实验站,还是在ICI,我的日常工作就是使用统计学解决实际问题。p117我试图通过讨论会让学生体验到当初我在产业界获得的经历,体验到通过应用统计学催化出新发现的经历。讨论会大获成功。常常是,那些带着问题前来并在此得到某种帮助的人会在后来的讨论会上告诉我们其项目进展如何,并且由此催生出了众多新发现以及不只一部合著出版物。讨论会持续举办,直到我退休之时。而我以前的学生以及其他校友经常跟我说,他们后来发现在麦迪逊期间最有帮助的经历就是“周一晚啤酒讨论会”。p122 作为仪式的一部分,丹尼尔宣读了授奖颂词,解释了为什么我会被授予荣誉学位。在其中,他列举了我常规的学术亮点,但我尤其高兴听到他说:“我人生中最有收获的经历之一是参加乔治·博克斯在他家地下室举办的啤酒和统计学讨论会 ··· 在主题发言之后展开的各抒己见、令人激动的讨论中,我深切感受到(在其他地方感受不到的),科学是这样一种独特的冒险:我们各自从不同的角度着手,但又共享一种共同的方法以及一个共同的视角,以追求真理,理解世界以及我们自己。” p272 「这段话可以用来论证作者在第十二章提出的创新的五种方法之一——“跨功能讨论”,创新不要闭门造车,而是要讨论,和不同领域的人讨论。」(时间序列预测的研究)原创性工作刚出来时不可避免会遭受敌意。比如,不论是最早提出响应面法的论文,还是率先提出“稳健性”一词的论文,都在发表时受到了很大抗拒。我想新思想会让人感到不安。比如,我们在书中对于差分的使用(借此将非平稳的序列变为平稳的),就引发了众多争议。其实我们当时想说的只是,对事情变化的比率进行建模有可能会更好。但现如今,作为这些思想的直接后果之一,单位根检验和协整已经成为计量经济学中的一项重要工作。p151 对于研究自动优化器的研究引出了这么多发展,实在大大超出我们的最初意图。这也再次验证了我们所相信的,即发展理论的最好方式是仔细研究实际案例。 p151 在1980年,美国全国广播公司(NBC)播放了一个专题节目,题为“如果日本人能做到,为什么我们不能?”。在节目中,戴明博士向美国观众解释道,日本战后在工业上的巨大成功有赖于统计学方法,而这些方法也可以造福美国的公司。戴明指出,在日本,统计控制保障了在众多生产过程中的始终如一的高质量,而高质量反过来促成了更好的成本控制。此外,统计思维指导着生产过程中从生产线工人到高层管理者的每个人。 p208 「统计学在工业中的应用,推动了日本战后工业的巨大成功。这算是最大规模的统计学在工业中的实践了吧。」


如果本文对你有所启发,欢点赞👍、分享📣推荐❤️

学习,实践,解决问题!