《试验设计》:试验精度

DoE经典图书推荐:《试验设计》中,我提到可以用”精度”串联书中的大部分知识点,本文就是我对”精度”的理解,梳理并分享。
关键词:精度、残差、残差表、标准差、标准误、中心极限定理。
一、精度的概念
研究试验精度的概念、度量和影响因素,目的是”在合适的精度上,实现试验目标”,比如识别显著的主效应和交互作用。
所谓合适的精度水平,指的是精度既应该足够精确,以使得我们能够得出有说服力的结论;但又不需要过于精确,避免浪费试验资源。
比如进行16次试验,可以是三因子两水平两次完全重复,也可以是四因子两水平一次重复,甚至是五因子两水平1/2析因试验;选择哪种设计类型,一个关键就是试验之前能粗略估计试验的精度。
如果完全不知道试验精度的大小,可能的一个结果是,统计分析发现所有的处理效应都显著或都不显著,对应的可能原因是精度过高或过低。

第一个方面,可以投入到试验中的努力程度可能会受到实验者无法控制的情况的限制。此时,在进行试验之前对可能产生的精度进行一些粗略的估计几乎总是有益的。例如,此粗略估计可以表明最终估计很可能会出现很大的误差,以至于无法得出有效的结论,因此建议,除非可以集中更多的资源,否则该试验不值得做。或者看上去可以用少于全部试验单元的数量获得足够的精度。

第二个方面是较积极的,如果单元数量在很大程度上可由实验人员掌控,则我们可以计算出与单元数量值范围相对应的精度。因此就可以达到以下两种情况之间的合理折中:其一是过少的单元数量和过低的精度,其二是浪费时间和试验材料来获得不必要的精度。

《试验设计》p105
本文使用《试验设计》“3.3 随机化区组”的例子,介绍与精度相关的知识点,回答问题:“试验精度如何,能否区分出这五个水平之间、两个区组之间的差异?”

例3.2 在 Cochran 和 Cox(1957,4.23 节)讨论的一项试验中,有三个区组,每个区组包含五个地块。处理方法是在三个区组的每英亩棉花地上分别施用五个水平的钾肥:36、54、72、108 和 144磅(lb)。观测值(响应值)是单纤维强度,通过对每个地块上的棉花多次测试后取平均值。原始结果及区组均值、处理均值如下表。

图片

二、精度:随机误差,残差
在深究精度——好试验的第二个要求——之前,必须确保”没有系统性误差”——好试验的第一个要求。
消除系统性误差的来源主要有两种办法:区组化和随机化(block what you can, and randomize what you can’t)—— 对应试验设计DoE的三大原则中的两个。
在试验的每个阶段,不可控变异的来源中的任何一个,要么用区组来标识,实际上就从处理对比中被消除了,要么被随机化,要么可能被认为是可忽略不计的。尽可能避免最后一项,因为如第1章所述,通常最好避免对不可控变异的属性进行假设。
《试验设计》p19
没有系统性误差,试验中就只剩下随机误差(噪音、fluctuation、波动)和处理效应(treatment effect,即处理对响应的影响),这两部分都会体现在析因设计的效应模型中。
试验的精度,是该试验的随机误差的大小。
第一步是计算出每一个响应值(观测值)的残差(residual)《试验设计》给出了完全随机化区组试验中的残差计算原理:

我们需要测量的随机变异不是由实际处理效应引起的,也不能被视为区组之间的系统性变化。因此,很自然地首先应将每个观测表示为与总体均值的差异,然后消除由区组不同引起的变异。这通过以下公式完成:

         (指定区组的观测均值)-(总体均值)

接着,消除由处理解释的变异

         (指定处理的观测均值)-(总体均值)

在此步骤结束时,对应于每个原始观测,我们得到一个残差(residual),该残差可以直接定义为

         观测 – (指定区组的观测均值) – (指定处理的观测均值) + (总体均值)

《试验设计》p20
计算出每个响应值对应的残差,就可以绘制残差表(residual table)下图是“例3.2”的残差表:
图片
三、精度的度量:残差、(残差的)标准差SD
有了残差表,就可以计算残差的标准差(standard deviation,SD)
标准差SD是描述数据的离散程度(spread)的统计量。比如Excel软件中的stdev()函数,就是计算一组样本数据的标准差,相应公式如下:
公式
按照该计算公式,标准差=0.158,但这是错误的。
正确的残差的标准差=0.209,因为“残差表的行和与列和均须为零”这一约束条件,导致残差自由度(residual degree of freedom)不是15-1=14,而是(3-1)*(5-1)=8。残差点图如下所示(by chatgpt)。

 

图片
图片

标准参度量了残差的大小,通过找到残差平方的平均值然后对其求平方根来计算得出。但是,在对残差平方求平均值时,合适的做法不是除以残差的个数(15)而是除以残差自由度(residual degree of freedom)[即(区组数-1)X(处理数-1),此时为8]才是合适的。其根本原因是,如果任意分配表3.2(c)左上部分的8个残差,则由行和与列和均须为零的条件将唯一确定剩余的数,即实际上只有8个独立(independent)的残差。

《试验设计》p20
四、精度的度量:(效应差的)标准误SE

试验的精度,是该试验的随机误差的大小。这句话不够“精确”,因为残差量化了试验误差(experimental error),残差标准差量化了残差的离散程度(spread),但我们依然不知道试验的精度的高低。

由此就有了标准误差(standard error,SE,简称标准误)的概念。

通常使用标准误差(standard error,SE)来度量随机误差的大小!

《试验设计》
标准误是什么?
引用《实验员的统计学》中的一段话来解释标准误差SE的概念:样本的任意统计量的方差的平方根通常称为该统计量的标准误差。
The standard deviation of the average, s/√n, is the square root of the variance of the average, and is referred to as the “standard error”of the average.The square root of the variance of any statistic constructed from a sample of observations is commonly called that statistic’s standard error.
《statistics for experimenters》

 

更简单的解释:样本统计量的标准差,称为该统计量的标准误。看起来好像和标准差没多大区别…… 但标准误有点像“从一次试验的标准差推导出(实际没有进行的)重复试验的标准差”。我自己编造的不严谨的解释:标准误是“统计量的统计量”,包含了两层统计,第一层是实际计算出的标准差(残差标准差),第二层是推导出的标准差(基于中心极限定理,本文已经太长了,就不展开细节了)。
我们只做了一次对比试验,但却可以基于残差标准差,计算出重复对比试验的标准差,进而推断这一次对比试验,是否有显著性差异。
一般可以预料,特定对照的标准误差将部分取决于对照的形式,部分取决于所涉及的观测次数,还有部分取决于不可控变异的大小。 p107

如果每个试验单元观测到一个观测值,则在其他条件相同的情况下,两种处理之同差异估计值的标准误差与每种处理的单元个数的平方根成反比。实际上,标准误差为

图片

若A、B两种处理得到的观测个数不同,则为

图片

这里的标准差(standard deviation)是经过相同处理的试验单元上的观测值的随机散度的统计量度。p6

回到例3.2,两个处理(即两个水平,每组重复3次)之间的标准误差:

图片

按照同样的方式,可以计算出两个区组(每个区组重复了5次)之间的标准误差:

图片

有了(均值差的)标准误,就可以比较均值差的差异是否显著——五个水平之间的两两比较,以及三个区组之间的两两比较。

具体的比较方法,可以是t检验或F检验,最好是结合图形化比较。

《试验设计》提供了一种最简单但也最体现标准误本质的方法——68/95/99.7法则,同时也解释了标准误差的在应用层面的含义。

标准误的应用:“在任意指定的概率水平下,从观测结果中确定对照的真实值所处的范围”。是68/95/99.7法则:
图片

在大约1/3的情况下,估计值的误差将超过正负一个标准误差;

在大约1/20的情况下,估计值的误差将超过正负两个标准误差;

在大约1/100的情况下,估计值的误差将超过正负2.5个标准误差。

《试验设计》p5

回到例3.2,两个处理(即两个水平)之间的标准误差为0.171,如果两个均值差超过0.395(t调整),那只有1/20=5%的概率是偶然因素所致。

因此,T2(最大值)和T5(最小值)之间,T2(最大值)和T5(次小值)之间,T1(次大值)和T5最小值)之间,都存在显著性差异(p<0.05)。换言之,当前的试验精度,足以区分五个水平之间的部分差异。——图形化表达会更直观一些,我就先跳过了。

对于预先选定效应的估计,其误差超过 ±2*0.171=±0.342的概率仅约1/20。但是,当标准差本身仅是根据少量观测值估计得出时,需要对这种解释进行一些修型,面实际上是残差自由度确定了该如何修正。当有8个自由度时,1/20的临界值应增加到2.31*标准差,即±0.395。从2 增加到 2.31,以允许误差估计中的不确定性,这在统计方面的教科书中已作了解释,是使用所谓的“Student” t分布的一个范例。p21

一般经验表明,不应将小于约5个自由度得到的标准差用于估计标准误。p113

《试验设计》

按照同样的方式,也可以对比三个区组之间的均值差是否存在显著性差异,此处略。

五、提高精度的三个办法

以上分享的内容,主要是“试验之后”的精度量化,进而判断处理之间和区组之间的差异是否显著;如果发现精度不足,简单的补救方法是增加重复次数,但增加重复不一定能明显增加精度,所以还要考虑其他的办法,特别是“试验之前”的准备工作,不论是(通过团队合作)预先了解尽可能多可能的变异来源,明确测量系统的精度,还是选择精度更高的试验类型(比如从增加区组因子)。

标准误差(standard error,SE)的取值——由此任何一个指定试验的精度–取决于:(1)试验材料的内在差异性(变异性)和试验工作的准确性;(2)试验单元的数量(以及对每个试验单元重复观测的数量);(3)试验的设计(如果效率不高,还取决于分析方法)。 
《试验设计》p6

对于第一点,Cox认为“在统计设计能够提供帮助的大多数试验中,改进试验材料或提高测量设备的精度只能实现非常有限的精度提高”;第一点应该是试验设计的前提,即试验前明确试验材料和测试系统中的可能变异来源及其控制方法。

对于第二点,即试验设计的第三个原则——”重复试验”或”观测数量”,我们可以在试验前粗略地估算试验精度,避免试验产生很大的误差以至于无法得出有效的结论等风险;当然也可能精度过高,则需要适当减少试验单元的数量。

对于第三点,则是试验设计的策略性。合理的试验设计,有可能达到与大规模增加试验单元数量相当的精度提高;这就是试验设计的魅力所在。 比如第7章 “水平的选择”介绍了如何选择合适的水平的数量和位置,控制精度,避免了盲目增加试验量而没有明显提高精度的情况。

如何确保不可控变异尽可能少的干扰结论:我们可以通过将试验单元分组为随机区组或拉丁方,或使用基于伴随变量的调整,来减少某些变异来源的影响,并且可以通过随机化将剩余变异转化为实际上的随机变异。
《试验设计》p97

不论是哪种控制精度的方法,都是控制试验误差SE的方法。


如果本文对你有所启发,欢点赞👍、推荐❤️、分享📣

学习,实践,解决问题!

Screenshot