DoE基础:标准差和标准误的区别搞清楚了吗?

10月整理的《试验设计》:试验精度,是第四季度最重要的学习笔记,包含了DoE中很多重要知识点(虽然没提方差分析,但有了残差,很快就会联系到了)。
当然我无法在一篇文章里把这些知识点讲透,这些更多是我自己的学习心得。不过,在阅读其他图书的过程中,我会尝试从不同的角度重新分享这些知识点,这也是我自己融会贯通的过程。
本文展开讲讲我几年前研究过、但今年年初还有些迷糊的概念:标准误差(标准误)到底和标准差有啥区别,在DoE中有什么应用,希望对大家也有所启发。
《实验员的统计学》对标准误的定义是:

样本的任意统计量的方差的平方根通常称为该统计量的标准误差。

The square root of the variance of any statistic constructed from a sample of observations is commonly called that statistic’s standard error.

我可以简化为:
样本统计量的标准差,称为该统计量的标准误。
进一步简化为:
统计量的标准差,称为标准误。
这里的几个关键词(统计术语),下面展开说说我的理解。
  • 样本 sample 
  • 统计量 statistics
  • 标准差 standard deviation,SD
  • 标准误 standard error,SE

样本 sample 
在以上极简版本中,我们直接隐藏了这个关键词,因为统计量就是样本的统计量,不会是总体的统计量,具体见DoE基础:为何是“参数检验”而非“统计量检验”?
统计量 statistics
这个统计术语,是需要详细展开说一说的;要解释统计量的概念,就要介绍“随机样本”,还要解释“独立同分布(IID,independent identically distribution) ”甚至“随机变量”的概念,但本文不能跑题太多,以后有合适的切入点再说。

直接摘抄《工程统计学》中的几个定义:

独立同分布的随机变量 X₁,X₂,…,Xₙ 称为随机样本

统计量是随机样本中随机变量的函数。

统计量的概率分布称为抽样分布。

以上的定义足够准确,但不如《实验员的统计学》中用类比的方式解释更直白:

像均值η这样的一个参数是直接涉及总体的量,像平均值ȳ这样的一个统计量是根据一组样本数据计算出来的量。

To distinguish between the sample and population quantities, η is called the population mean and ȳ the sample average. A parameter like the mean η is a quantity directly associated with a population. A statistic like the average  is a quantity calculated from a set of data often thought of as some kind of sample taken from the population. 

简单来说,统计量是源自样本数据的一个计算量,简单的比如样本平均值、样本方差、样本标准差;复杂的比如回归模型的系数(对应效应值)、残差方差、残差标准差等。

蒙哥马利在《工程统计学》中说,“只要给出数据,我们始终在计算统计量”。

标准差 standard deviation,SD
工程师对标准差这个统计术语并不陌生,我们使用标准差度量一堆数据的离散程度,在excel中也很容易使用函数stdev()计算出样本的标准差。
在DoE中,我们计算出残差表,就可以计算残差标准差,进而量化残差的离散程度(spread)。
但是可以说,标准差就是统计量吗?未必如此!
简单来说,标准差既可以是统计量(样本的标准差),又可以是参数(总体的标准差);详细答案见DoE基础:为何是“参数检验”而非“统计量检验”?
而这两者之间的联系,就是“统计推断”:基于样本推断总体。
当我们说用样本的标准差去估计总体的标准差时,这就是用样本统计量去估计总体参数的典型例子,具体估计方法就是下面要提到的 one more thing。
标准误 standard error,SE
来到了最难的概念,标准差度量的是数据的离散程度,标准误度量的是什么?
统计量的标准差,称为标准误”;
以残差为例,“残差标准差的标准差,称为标准误”,为什么残差标准差还有一个标准差? 答案是经常被忽略的“重复抽样”。
第一个标准差是样本内的标准差,即样本数据点的离散程度;
第二个标准差是样本间的标准差,重复抽样,计算出每个多个样本的标准差,再计算这些标准差的标准差;结果被称为“标准误”。
因此,标准误衡量的是统计量的抽样误差,即如果重复做实验,该估计量的波动大小(离散程度),也就是之前所说的试验精度——我只做一次试验,试验结论能不能被重复出来?
再换个角度,统计量的标准差,称为标准误”,这儿的“标准差”是统计量而非参数,所以我的一个不严谨的说法是,标准误是统计量的统计量,包含了两层统计。

更简单的解释:样本统计量的标准差,称为该统计量的标准误。看起来和标准差没多大区别…… 但标准误有点像“从一次试验的标准差推导出(实际没有进行的)重复试验的标准差”。我自己编造的不严谨的解释:标准误是“统计量的统计量”,包含了两层统计,第一层是实际计算出的标准差(残差标准差),第二层是推导出的标准差。

吴博,公众号:试验设计实践派《试验设计》:试验精度
为什么要用error(误差、偏差)这个名字呢?
标准差(standard deviation),关注数据本身,度量数据的离散程度,不直接涉及比较或推断;
标准误(standard error),强调统计量的偏差——重复抽样或重复试验之间,反映了试验的精度;隐含着比较和推断,这就是为什么用error一词。
而实际上,计算标准误的目的就是用来比较,《试验设计》:试验精度中介绍了如何使用标准误,分析区组之间、处理之间是否存在显著性差异;这就是典型的统计推断。
一句话总结,error中包含了比较,但deviation并没有。
One More thing
不论是“统计量的标准差,称为标准误”,还是“重复抽样”,这儿都隐含了一个关键的统计术语或统计定理:中心极限定理。
图片
这是DoE中最有用的一个定理,也是连接“标准差”和“标准误”的桥梁。
如果弄明白了中心极限定理,就可以更深刻的理解标准差和标准误,以及重复抽样等概念。
文章已经太长了,这篇的知识密度已经偏高了,此处留个引子,以后再展开。
相关历史文章:
DoE基础:为何是“参数检验”而非“统计量检验”?
《试验设计》:试验精度
DoE经典图书推荐:《试验设计》
无重复析因试验怎么分析?——摩托罗拉波焊案例的延伸思考

如果本文对你有所启发,欢点赞👍、推荐❤️、分享📣、私信切磋。

学习、实践、只为解决问题!

2025.12.30 预祝大家新年快乐~

 

Screenshot