概率主题阅读:六西格玛统计基础知识

本文简单罗列和整理六西格玛的基础概念,以加深自己的理解,后续再补充。
关键词:随机抽样,正态分布,t检验,卡方分布,F分布,六西格玛,参数估计,假设检验,

背景知识:抽样调查,随机性,标准差

抽样调查,随机抽样,标准差计算公式,随机对照实验
抽样调查就是用样本推测整体的过程,这也是统计的经典用处,相对于完整调查,抽样调查仅需要部分样本,就可以很好的分析出整体的情况。 当然抽样的诸多细节和注意事项,都是从“怎样才能让样本反映整体”这一点出发的,避免有偏差的抽样;其次抽样量如何确定,这就是六西格玛中的样本量的选择,简单来说就是中心极限定理,复杂来说就是贝塔风险的问题,细节不展开了。
随机抽样,强调的就是抽样的“随机性”,从而保证样本能充分反映整体。
标准差是N个样本的一个统计量,反映这N个样本的分布情况。 平均值和标准差,是最常用的统计量。

统计推断基本概率:置信度,置信区间,p值

置信度和置信区间,是将样本的分布做了定量化描述,置信度confidence说的是概率,置信区间给出的是这个概率下的分布范围。 最直观的例子是,正态分布的68%,95%,99.7%规则,分别对应于平均值加减1个,2个,3个标准差的波动区间。
p值和置信度相加等于1,置信度强调的是在置信区间内的概率,p值强调的是不在置信区间的概率。
最常见的是95%置信度和p=0.05
另外在点估计中,也会给出一个点,让计算这个点正好没有落在置信区间中的概率。
p值主要用于假设检验之中,在假设检验之中,p<0.05,即零假设发生的概率太低,拒绝零假设,从而接受备则假设。

标准误差(标准误)和标准差的关系

标准误差是使用样本结果推测整体的偏差,标准差和标准方差是样本结果的自身偏差程度。
《看穿一切的统计学》一书介绍了标准误差的计算公式,尤其强调标准误差和抽样量的关系,样品越多,标准误差越小,但是继续增加意义不大,所以存在一个最佳的抽样量,可以获得足够高的抽样精度,又能避免全面调查的高成本。 这也是六西格玛统计中的“抽样量”的计算公式。

中心极限定理:样本反映整体的准确程度
中心极限定理,从简单随机抽样平均值推测整体的平均值, 与置信区间方法类似,样本量大时接近正态分布。

正态分布(Z分布)与t分布,总体与样本

t检验和Z检验相对,如果分布是Z分布即正态分布,那就用Z检验,这个可以直接转换成平均值=0,方差=1的正态分布进行计算。
但是根据中心极限定理,抽样量少,就不是严格的正态分布了,而是符合t分布,即student分布,它的分布曲线是在正态分布上做了调整,简单来说就是比Z分布曲线更胖、更矮一些。T分布相当于一种“劣化”的正态分布。

所以工作中经常取三五个样品,其实就应该直接用t分布,而不应该用excel算个stdev就去比较,那就真的是没有弄清楚t分布和Z分布。

假设检验不管你是Z分布还是t分布,都是参数点的估计或者区间的估计,只需要套用具体的分布,或者直接用软件计算即可。

忘了是那儿提过,大样本(>30)使用正态分布和方差分析,小样本使用t分布和t检验。

很多人,包括我,在真的弄清楚t检验之前,都是直接使用 均值+标准差的比较方法(看误差棒重叠与否),这是基于正态分布的方法,其次双样本也不应该这么比较,双重错误!

卡方分布与卡方检验:是什么,用途

卡方分布是正态分布的方差的分布,所以它的分布都在第一象限。
从正态分布中取1,2,3,-N个样本,这些样本的方差,就是一个横坐标是样本量,纵坐标是方差的分布曲线。
上面这个描述是错误的,方差分布也是一个抽样分布,每个抽样量N对应的曲线,都是反复抽样得到的方差的曲线。

卡方分布是方差的分布,所以它的用处就是用来比较方差!, 不是比较方差,而是分析两个样本是否来自于同一个总体。

F分布

F分布是两个独立正态分布的方差之比的分布,给出两个样本的抽样量n和m,就可以找到对应的F分布。
F分布就用来比较方差。

统计推断:参数估计和假设检验,显著性检验?

根据蓝皮书,统计推断分为参数估计和假设检验两种。
参数估计相对来说比较简单,比如已知分布,求某一个点是否在这个分布中,或者说恰好落在这个分布中的概率是多少,很多问题都可以简化成参数估计,比如假设检验中的p值的计算。
假设检验,强调的是一种证伪法,先定下一个零假设,然后计算它发生的概率有多大,也就是p值。如果p<0.01或0.05(我们常说的非常显著,显著),就可以推翻零假设,接受备则假设。
蓝皮书有一句话,“拒绝是有说服力的,无法拒绝是没有说服力的”,所以只有推翻零假设(p小于某个临界值),才能承认备则假设。
当然无法拒绝也可以接受备则假设,这个前提就是弄清楚贝塔分布,避免样本量太小导致的beta风险太大,也就是“纳伪”的风险。

随机对照实验

随机对照实验是显著性检验的一种实践方法, 随机对照实验是重复使用显著性检验的过程,其中的随机性设计是消除波动的方法。
分析的本质是比较,统计上的比较用的就是随机对照方法,不随机就无法用样本去代表整体。
然后怎么比较?这就需要具体看统计量是什么了,选择不同的方法。

参考资料:

《魔鬼数学》第二部分 推理 其中本部分最后一章介绍贝叶斯推理
《统计学的世界》 第四部分 统计推断 第23章
《赤裸裸的统计学》

记录:
2019年读了几本统计图书,想整理一个文章,理清最基本的几个概念,一直没有弄清楚;2020年结合《六西格玛管理统计指南》第四章“统计基础”,整理更新本文,得到大纲和部分正文。2021年8月复习六西格玛黑带知识,简单更新本文,记录自己的理解,不求完整,发布,以后看到本文再继续更新。

2019.1.12 first draft on the train back home
2019.1.14
2019.3.23 重读 《统计学的世界》第23章
2020.5.2 结合《六西格玛管理统计指南》简单整理框架
2021.8.10 简单更新并发布,用时40min,可能有理解错误,下次重读时做检查。