好的实验设计的基本原则2:控制波动 2.1测试系统

上一篇文章分享了好的实验设计的第一个原则,用一句话总结就是”分析的本质是比较“,这句话展开有很多变种,但本质都是比较。特别值得反复强调的一句话是——“问题的最简化定义是目标和现状之间的差距”,这其中也暗含着比较,毕竟没有比较就没有差距。

我想到的第二个关键原则是”控制波动“,这一原则涵盖的概念太大,毕竟这就是”六西格玛统计“的核心。不夸张的说,只有掌握基本的统计知识,才能真正的明白波动的含义和控制方法,才能做好实验。如果不能从波动的角度去考虑问题,那就不用谈解决问题了。

“一旦你明白了这句简单的格言——‘波动是糟糕的’,你就是一个60%的六西格玛专家了。剩下的40%就是去掉那个糟糕的部分。——杰克韦尔奇《赢》

六西格玛的核心是波动或变异,其中的关键概念都是围绕控制波动展开,比如最基本的抽样实验,重复实验的标准差,显著性检验的p值和置信区间。 而六西格玛中的两大工具——测试系统分析MSA,实验设计DOE,前者是为了分析测试系统的精度,后者是通过合理的实验设计抵消随机误差以大幅减少试验次数,并用软件进行量化分析。

工厂中的六西格玛绿带和黑带要使用这些知识和工具完成完整的六西格玛项目,比如降低库存,提高产品质量,从而为公司创造价值。 对于研发人员来说,可能不常做完整的DOE和MSA分析,但同样需要深入掌握统计思维,时刻不忘多从从变异的角度去罗列、筛选、分析和控制实验变量,更强调灵活运用统计知识,不能死板。DOE和MSA只是掌握变异思维的具体工具,并不是会照葫芦画瓢,就真的会做实验了。

不懂统计,没有变异思维的表现是什么? 比如强调精确控制一切变量(某个操作写的是“1-2g”,就必须精确到多少克,其实是这个变量影响很小,精确没有意义);比如不允许用定性描述和序数型变量,只能接受连续性变量;比如要做全因子实验,而不能接受部分因子实验;只有出现异常情况才做重复实验; 类似的事情太多了。

好的实验必须建立在统计原则对研究领域的了解的基础上。 ——《统计的的世界》

实验误差本身包含测量误差,为了不使测量误差影响分析结果,通常要在试验进行前,先进行测量系统分析,只有测量误差满足了对测量系统的最低要求后,试验才能开始进行。(引自 《六西格玛管理》红皮书P369)

所以我将控制波动分成两个部分
2.1 测试系统的波动
2.2 实验设计的波动

做实验之前,首先要保证测试工具可用。所有的的仪器方法都有一个精度,就像米尺测不出头发的直径,游标卡尺也测不了喜马拉雅山的高度。如果用过于“粗糙”的仪器方法,即使样品间存在显著性差异,也测不出显著性差异;而如果用过于“精细”的仪器方法,有时倒也能用,就是浪费资源,降低效率,保留了太多不必要的细节。

所以拿到一个项目或者遇到一个问题,清晰的界定问题之后,在动手实验之前,要首先问自己,我们手里的工具够用吗? 如果不够用,还要吭哧吭哧得搞下去,大概率只能得到乱七八糟没有规律的数据和结果,无法得到准确的结论,浪费人力物力;当然如果实验只做一遍,也有可能得到了一个看起来有规律的结论(凡事都要概率,就像三次掷色子也有可能都是6点),但是这个结论却禁不起重复验证。

举例1:我要合成一种化妆品常用的抗衰活性物,要保证纯度大于99%,不考虑活性物变质,真空干燥除去其中的挥发性溶剂和残留水分,最后唯一杂质是无机盐。常见的无机盐测试方法是中国药典“炽灼残渣检查方法”。所以问题就是,如果合成产物中分别含有1%,2%无机盐杂质,炽灼方法是否可以识别出来?这就是一个测试系统的精度问题。
首先配置标准样品(空白组,分别掺入1.0%,2.0%无机盐的样品),然后进行炽灼残渣测试,最后根据结果分析方法的精度。比如添加1%无机盐的活性物,重复三次,理论残留量应该是1.0%,实际残留量是0.90%,三次重复的样本标准差是0.05%。
计算实际结果的平均值、标准差,进行统计上的“点估计”。假定测试符合正态分布,根据“68%-95%-99.7%”规则,我们可以认为,有95%概率,含有1%杂质的样品的测试结果应该在0.8%-1.0%之间。所以我们实际合成的样品,只要测试结果低于1%,我们就可以认为达到了纯度的要求。
实际上,这个项目被另外一个“测试工具”卡住了,我们虽然可以排除溶剂、无机盐的含量,但是实际纯度只有80-90%,因为活性物在合成过程中会变质,但是我们没有相应的HPLC设备去验证这个假设,所以没有办法研究影响产物变质的具体条件(光照、空气、温度),因为我们手里的工具不够用。

举例2:优化某领域的膨润土产品生产工艺条件,需要优化生产工艺(三种膨润土原矿、膨润土加碱量、烘干温度、粒径),以改善膨润土在该领域上的性能,一共包括八个指标,比如热性能,抗压性能,抗拉性能,等等。简单来说,这个实验有四个x变量,八个y变量,我们的目标是,筛选出最优的x组合,获得最好的y性能,当然有可能三种膨润土原矿的工艺条件都不一样。
这个项目怎么展开呢?
实验小白的做法是是,假定每个工艺条件定三个参数,这三个膨润土原矿一共需要制备出3333=27个待测样品;然后分别测试这27个样品的8项目标性能,假设每个样品每个性能只测一遍,总共就有216项测试;最后对比这些测试结果的差异。这样就已经够费时费力了,如果再考虑样品制备的均匀性和设备的波动,假设每种测试重复三次,总共就有2163=648项测试。这还不考虑其他的各种变量。如果不管三七二十一,一头钻进实验室忙活十天半个月,最后就不小心把自己“埋了”,数据一大堆,分析不出个头绪来。
学点六西格玛知识,会想到用DOE,但是这儿的y太多了,不能直接上DOE。

那应该怎么做?
第一步工作,清晰的界定问题,即解决问题的第一个基本原则——问题的最简化定义是现状和目标之间的差距。(1)目标:明确实验目标是什么,我们希望达到的性能指标是什么,合格与不合格的界限是什么;(2)现状:如果按照最常规的处理方法,这三种膨润土的性能是什么,哪些性能达不到要求? 差距多少?
具体到这个项目,我们需要考虑到,(1)从研究对象上简化项目,三种膨润土原矿,只做其中一种;这样就节省了2/3的工作量;(2)要保持一定的实验重复性,从而控制波动;(3)又要尽量降低实验次数,所以要像DOE那样,只在中心点增加重复实验,更好的办法是回顾历史数据,了解实验波动是多少?(4)从测试指标y上简化项目,结合专业经验,我们要筛选出最关键的指标y值,而不是8个指标全都研究一遍,这就涉及第一步工作,即我们的目标、现状和差距在哪里,是否所有8个指标都需要提升;以及根据技术经验,哪些指标和需要研究的x最相关,哪些指标对x的变化不敏感;(5)评估当前的测试系统的精度,避免把随机波动视为显著性变化,这里的关键还是历史数据回顾。

展开讨论这个项目的“测试系统的精度”,最重要的是有这个意识,区分开测试系统的误差和实验设计的误差,很多时候我们不需要重新做实验,只需要研究实验室的历史数据,就能确定测试系统本身的误差有多大,工艺优化到什么情况才能被表征出来。
根据工厂生产的质量检测数据,分析这八个y性能的正常波动范围是多少,不合格范围是什么,优化方向是什么。这样我们就能知道,如果调控了某一个指标,这个性能的波动是随机波动还是主动控制的结果。 其次,哪些指标可以适当劣化,哪些指标是严格限制的,这样就筛选出真正拿来做监控指标的y值,缩小研究范围,比如从这8个指标选出一个或两个最关键的指标,等优化之后再做完整的性能复检看其他指标是否异常。
如果不知道测试系统的波动范围,那我们就无法区分开测试系统的误差和实验设计的误差,无法给出准确的实验结论。

举例3:客户需要我们提供一种检测方法,用来测试洗衣粉中的膨润土含量,以帮助他们监控混料过程的稳定性和产品质量,(事后才知道)客户对膨润土含量的精度要求是达到0.1%左右。
膨润土测试方法,可以列出五种(吸蓝量、XRD,XRF, ICP, 不溶物含量)甚至更多,但是能用哪个方法,本质就是看测试方法本身的精度能否满足客户要求的精度,当然还要考虑客户是否有相应的仪器设备和测试能力。
比如XRD是定性分析方法,客户也没有相应仪器,直接放弃。
比如XRF测试时,洗衣粉制样困难,需要额外添加剂才能压片,这样就会破坏样品的纯度(可以有办法剔除添加剂的干扰,重新归一化?),而且客户也没有相应设备,直接放弃。
对于吸蓝量测试方法,这是膨润土品质坏好的标准方法之一,但是不是通用设备,仅限于膨润土生产厂家和特定领域的客户,滴定终点的判定对操作人员的要求比较高。洗衣粉厂家自然没有这个设备,是不是也应该放弃。我们不考虑这一点,只从测试精度考虑可行性。吸蓝量测试的样品称样量为0.5g,滴定终点是大约40mL亚甲基蓝溶液,终点判断的波动大约是1mL 亚甲基蓝溶液,即39-41mL的滴定结果很难区分开,对应CEC的波动就是2,比如88-90。 如果我们称量0.5g洗衣粉,洗衣粉中含有1-10%膨润土,滴定到终点大约需要0.4mL和4mL亚甲基蓝溶液,既然我们识别不出1mL亚甲基蓝的差别,那我们就无法区分出2%的膨润土含量。所以实际测试应该称量更多的洗衣粉,假定保证样品中含有0.5g膨润土,再进行滴定,对于0.1%膨润土含量波动,滴定终点的亚甲基蓝溶液含量波动是40*0.1%=0.04mL,还是分辨不开,我们最多勉强分辨出1%膨润土含量波动,这还不考虑洗衣粉本身对吸蓝量测试方法产生的巨大影响。实际情况是,洗衣粉本身放大了吸蓝量测试方法的波动,导致滴定终点更难判断,所以测试方法的精度进一步变差,到了不可用的地步。所以结论是,即时不考虑客户是否有这个设备,该方法的精度也达不到客户的要求。

总而言之,实验之前,我们要搞清所用测试仪器的精度,如果测试仪器达不到要求,就不要直接去开展实验,要么放弃,要么先去研究如何提高实验精度,否则就要做无用功了。

2021-11-10 update
2021-12-14 update
2022-1-7 done