《女士品茶》第9章 钟型曲线
什么是中心极限定理?
大量数据的平均值拥有某种统计分布。中心极限定理是说,不管初始数据来自何处,这种分布都可以用正态概率分布来近似。正态概率分布就是拉普拉斯的误差函数,它有时又叫“高斯分布”。大众读物将其简单描述为“钟形曲线”。
这个猜想之所以被普遍承认,是因为它允许我们用正态分布描述大部分数据。一旦研究人员发现正态分布,他们需要解决的数学问题就变得容易多了。正态分布具有一些非常好的特性。如果两个随机变量服从正态分布,那么它们的和也服从正态分布。简单地说,正态分布变量的所有加减组合都服从正态分布。所以,正态分布变量导出的许多统计量也服从正态分布。
在卡尔·皮尔逊提出的四个参数中,正态分布只有均值和标准差两个参数,对称度和峰度都是零。一旦知道这两个数字,其他情形就都一目了然了。费希尔证明,他只需要知道一组数据的均值和标准差的估计值就够了,它们包含了这些数据的所有信息。他不需要保留任何原始测量结果,因为这两个数字包含了所有可能从测量值中发现的信息。如果测量数据足够多,能对均值和标准差做出足够精确的估计,那么就不需要再进行测量了,继续收集测量数据只会浪费时间。例如,如果你想确定某个正态分布两个参数的两位有效数字,那么你仅需收集大约50个测量值。
蓝皮书《六西格玛管理统计指南》第2章 2.5中心极限定理
第2章概率论基础知识,先介绍了“随机变量及分布”,随机变量的数字特征(概率密度函数的参数),连续性分布,离散型分布;最后介绍中心极限定理。
该部分摘抄和图片如下:
2.5.1 样本平均值的标准差性质
我们研究统计学的时候,各样本间就是相互独立取值的有相同分布的随机变量。
如果有多个随机变量,它们相互独立,而且方差都相等(记为σ^2)。
x bar的方差与原来X的方差相比,X bar的方差是原来X的方差的1/n。 写成标准差(常称为均值的标准误)的形式:
σ(x bar)=σ/(sqrt(n))
要注意的是,该式的成立并未要求原来分布为正态,这两个公式对于任何分布都是正确的。
(x bar = 从总体X中随机取出n个x,其平均值)
2.5.2 样本平均值的分布性质
大家容易理解,两个随机变量的分布类型不同,那么各自抽取10个样本(也就是10个独立同分布的随机变量),两个随机变量各自形成X的分布当然也会不同。但是,大量实践表明,它们都与正态分布接近。概率论的理论证明了这样一个重要定理,我们称之为中心极限定理,通俗的描述就是:
1. 随着样本量的无限增长,无论原来的分布是什么(离散型分布或连续型分布,正态分布或非正态分布),X的分布总会趋向于正态分布。
2. 实际工作中,只要n较大时,我们就可以认为X的分布近似于正态分布。当分布对称时,n=5已经近似得很好;当分布严重偏斜时,n=30也会近似得很好。
此定理的严格证明不再给出,但我们给出几个例子加深理解其含义。
我们选“凹三角”分布和“均匀分布”作为对称分布的代表。n=1代表原分布; n=2代表两个同样随机变量的平均值的分布; n=5代表5个同样随机变量的平均值的分布。从图2-58中上两排图可以看出,对于对称分布,5个样本的平均值的分布已经与正态分布很接近了。我们选指数分布作为严重偏斜分布的代表,5个样本的平均值的分布形状离正态分布还很远,但是30个样本的平均值的分布则与正态分布很接近了。我们在数据文件“BS_中心极限定理.MTW”中,给出了示意性的数据供大家参考。如果需要正式进行正态性检验,则要在学习第5章之后才能实行。

2022-9-3 以上是两本书中的相关内容,以下是我自己的理解,不一定正确,以后回顾更新纠正:
在实际工作中,某些测试的重复次数,就像中心极限定理中的抽样次数n,经常我们只测试一次,如果我们知道总体是符合正态分布,那n=1倒也够用;相当于从总体为“凹三角”分布中重复5次。
对于一些重要的性能验证,一般是测试3次甚至5次,这里面的默认前提是,总体分布比较对称,至少比上文中的“凹三角”分布更接近正态分布,那是否3个样本的平均值的分布,就已经与正态分布很接近了呢。
当然,如果我们有意识的思考要研究变量对应总体分布,更有助于确定抽样次数。比如最近碰到的一个项目,同事对泡棉胶带的静态挂重测试,常规就是重复3次,最常见的情况是全过、全不过的情况,那足以说明这个样品的质量好坏,(正态分布的单尾假设检验)。偶尔会有三个过一个的情况,就需要重新测试,以提高信心。
2022-9-3