XMR卡
而不是 p-、np-,
C 卡和 U 卡

替代数据(属性、计数)p 图、np 图、C 图和 u 图或单个值的 XmR 图的控制图?

“使用 p 图、np 图、C 图或 u 图的困难在于很难确定二项式模型或泊松模型是否适合数据。”

- [31] 唐纳德·惠勒

我们翻译了 Donald Wheeler 的文章:“p 图怎么样?何时应该使用 p 图、np 图、C 图和 u 图控制图来获取替代数据(计数)?” / Donald J. Wheeler,文章:“p 图表怎么样?我们什么时候应该使用专业图表 p 图表、np 图表、c 图表和 u 图表来表示计数数据?” [31]

翻译及注释:AQT中心科学主任 谢尔盖·格里戈里耶夫

免费获取文章不会以任何方式降低其中所含材料的价值。

内容

所有基于计数数据的控制图都是离散值图。无论我们处理数量还是分数,我们都会在每个时间段收到一个值,并且每次收到一个值时都希望在图表上绘制一个点。这就是为什么甚至在发现构建单个值和移动范围的 XmR 控制图的方法之前,就为基于计数的数据开发了四个特定的控制图。这四种控制卡分别是p卡、np卡、C卡、u卡。本文询问何时将这些和其他特殊控制图与基于计数的数据一起使用。

这些特殊控制图中的第一个,即 p 图,是由 Walter Shewhart 于 1924 年创建的。当时,使用两点滑动范围来衡量一组单独值的离散度的想法已经产生尚未出现(W. J. Jennett 在 1942 年提出了这个想法)。所以 Shewhart 面临的问题是如何根据计数创建离散值的过程行为图。尽管他可以将数据绘制为当前记录,并且可以使用平均值作为当前记录的中心线,但障碍是如何测量方差以过滤掉正常变化。对于离散值,他认为没有办法利用子组内的变异,但他知道最好不要尝试使用全局标准差统计量,因为可用数据中的任何异常方差都会夸大全局标准差统计量。因此,他决定使用基于概率模型的理论控制极限。

简单计数数据的经典概率模型是二项式和泊松模型,休哈特知道这两个模型都有一个方差参数,该参数是其位置参数的函数。这意味着从数据获得的平均值的估计也可以用于估计方差。因此,仅凭位置统计数据,他就可以估计中心线和三西格玛距离。

用于这些计算的特殊休哈特控制图

图 1:休哈特用于这些计算的特殊控制图。

这种使用均值来表征位置和方差的方式意味着 p 图、np 图、C 图和 u 图具有基于均值和方差之间的理论关系的控制限。

因此,可以说所有特殊控制图都使用理论控制限。如果可以使用二项式分布或泊松分布对计数进行合理建模,则可以为离散值图获得适当的控制限。

近年来,许多教科书和标准忘记了二项式或泊松模型的假设是使用这些特殊控制图的主要要求。这是一个问题,因为有许多类型的基于计数的数据无法表征为二项分布或泊松分布。将此类数据放在 p 图、np 图、C 图和 u 图上时,生成的理论控制限将不正确。

那么我们应该做什么呢?理论控制极限的问题是假设我们知道中心线和三西格玛距离之间的确切关系。解决方案是获得方差的单独估计,这就是 XmR 图的作用:虽然均值将表征位置并充当各个值的 X 图的中心线,但 mR 图的移动平均范围将表征方差并作为计算 X-map 的三西格玛距离的基础。

因此,专用计数控制图与单个值和移动极差的 XmR 图之间的主要区别在于三西格玛距离的计算方式。参考 p 图、np 图、C 图和 u 图将具有与 X 图相同的当前条目和基本相同的中心线。但在计算三西格玛控制限时,专用控制图使用估计的理论关系来计算理论值,而 XmR 图实际上测量数据中存在的变化并构建经验控制限。

为了将自定义控制卡与 XmR 卡进行比较,我们将使用三个示例。第一个将使用图 2 所示的数据。这些值来自会计部门,该部门跟踪每月“按时”关闭的账户数量。显示的计数代表每月每 35 次关闭(定义面积相等)中按时完成的关闭数量。

用于这些计算的特殊休哈特控制图

米。图 2:每 35 个账户中每月按时关闭的账户数量的 X 卡和 np 图表。
红色虚线是 X 图的控制上限和下限,蓝色虚线是 p 图的控制限。

在这里,对各个值的 np 图和 X 图的计算得出几乎相同的控制限(未显示控制上限 36.8,因为它超过了 35 个按时关闭的最大值)。这里,这两种方法本质上是相同的,因为这些计数似乎是通过二项式分布适当建模的。如果你足够熟练地识别出这种情况何时发生,那么你就会知道np卡何时起作用并能够成功使用它。另一方面,如果您没有足够的经验来知道二项式模型何时合适,您仍然可以使用 XmR 图。从这里可以看出,当 np 图起作用时,X 图的经验控制限将与 np 图的理论控制限相同,并且使用 XmR 图而不是np 图。

在下一个示例中,我们将为工厂使用准时交货。图 3 显示了两年内按月按月准时交货百分比的数据,以及各个值的 X 型图和该数据的 p 图。

两年内按月按时交付百分比的 X 型图和 P 型图

图 3:两年内按月按月准时交付百分比的 X 型图和 P 型图。

X 图显示了三个点处于或低于控制下限的过程。可变宽度 p 图控制限制比使用滑动跨度找到的 X 图控制限制宽五倍。没有任何点超出这些 p 图控制限制。两组控制限之间的差异表明图 3 中的数据不满足二项式条件。特别是,对于任何给定月份的所有货件来说,货件按时到达的概率并不相同。由于二项式模型不适合这些数据,因此理论 p 图控制界限不正确。然而,XmR 图的经验控制限(不依赖于特定概率模型的拟合)是正确的。

我们的最终比较将使用图 4 中的数据。这里我们列出了一家电子组装厂通过空运运输的进货百分比。有两个点落在可变宽度 p 图的控制限之外,但没有点落在 X 地图的控制限之外。

图 4:单个值的 X 型图和空运货运百分比的 P 型图。

图 4:单个值的 X 型图和空运货运百分比的 P 型图。

图 4 是当计数物品的“机会区域”变得过大时所发生的典型情况。二项式模型要求任何给定时间段内的所有元素都有相同的机会拥有被计数的属性。这里不满足这个要求。由于每月有数千批货物,因此空运货物的可能性并非所有货物都相同。因此,二项式模型不合适,并且依赖于二项式模型的理论 p 图控制限不正确。 X-map 控制限(这里的宽度是 p 图控制限的两倍)正确地表征了该数据的位置和分布,并且是要使用的正确控制限。

因此,使用 p 图、np 图、C 图或 u 图的困难在于很难确定二项式模型还是泊松模型是否适合数据。正如您在图 3 和图 4 中所看到的,如果您错过了特殊控制图的主要条件,您可能会在实践中犯下严重错误。这就是为什么您应该避免使用临时控制图,除非您知道如何评估数据与这些概率模型的拟合度。

与使用可能正确也可能不正确的理论模型不同,XmR 图为我们提供了实际基于数据中存在的变化的经验控制限制。这意味着您可以随时将 XmR 图表与基于计数的数据结合使用。由于 p 图、np 图、C 图和 u 图是离散值图的特例,因此 XmR 图将在适当时模仿这些特殊图,而在它们失败时将与它们不同。

对于具有可变宽度控制限制的特殊控制卡,XmR-cut 将根据控制卡计数的平均定义区域来模拟控制限制。此外,在进行这些比较时,我更喜欢基期至少有 24 个计数。

基于计数的数据的无假设方法。

图 5:基于计数的数据的无假设方法。

因此,如果您没有统计学的高级学位,或者您只是无法确定您的计数是否可以用二项分布或泊松分布来表征,您仍然可以测试您为基于计数的特殊图表的选择通过将 XMR 图表的理论控制限与经验控制限进行比较来获得数据。如果经验控制限与理论控制限大致相同,则概率模型有效。如果经验控制限与理论控制限不匹配,则概率模型不正确。

如果您从一开始就使用 XmR 图表,那么您始终可以确保基于计数的数据拥有正确的控制限。经验方法永远是正确的。

注(S.格里戈里耶夫)

在他的著作《统计过程控制》中。使用休哈特控制图进行业务优化”,Donald Wheeler 定义了另一个必要条件,以尽量减少计算数据的离散性对单个值的 XmR 图的经验控制限的影响:

“在平均计数值大于 1 的所有情况下,都可以构建离散数据的 XmR 图。如果大于 2,则离散性对控制限的影响将可以忽略不计。

由于在可以获得测量结果时使用离散量几乎没有意义,因此属性的使用通常仅限于可以计算错误的情况。然而,定义“错误”通常极其困难。

定义“失误”的主要困难在于 操作定义 ”。

- [31] 唐纳德·惠勒

因此,如果每个定义域的平均计数小于二,则可以通过增加定义域以获得等于或大于 3(三)的计数平均值来轻松解决此问题,这对于具有泊松分布的事件尤其如此(缺陷被计数,而不是有缺陷的产品,并且只能计数缺陷,但在任何情况下都不能计数“非缺陷”的数量)。

例如

如果每个定义区域的平均缺陷数等于一平方米织物等于 1(一),则可以使用三平方米的定义区域,获得每个新定义区域的平均缺陷数等于至 3(三)平方米。使用您可以轻松选择的定义区域进行检查(测试),例如,对于一卷1.2米宽的织物,您可以使用3延米的定义区域。

所需最小定义域的计算公式:

如果历史数据计数的平均值 < 3,则
新的最小定义域是通过将当前定义域乘以系数 (k) 获得的:

k = 3/历史数据计数平均值;

最小新域 = k × 当前域。

选择生成的最小新定义域的定义域(=)或(>),以方便控制。

对于二项式值(是/否、有缺陷/无缺陷、未准时/准时),您可以使用 XmR 图表来表示积极结果而不是消极结果的值,如示例 1 中所示(图本文的 2)和 2(图 3)是 Donald Wheeler。二项式模型数据离散性对单个值的 XmR 图的影响遵循与泊松模型相同的规则,保持结果计数(是/否)的平均值至少为三 (3)。

注意力!

如果范围不同,则无法在不将计数转换为相应范围的分数的情况下比较计数。如果您仍然难以解释股票,您可以将获得的计算值带到一个定义区域,如 D. Wheeler 的本文示例 1 使用及时平仓控制图的示例账户。为此,您可以使用下面所示的公式。

您正在寻找什么:

X - 减少到恒定定义域的计数数量。

计算每个定义区域的缺陷产品比例的示例。

“所有分数都是分数,但并非所有分数都是分数。当分母描述分子值的定义域时,分数可以被视为分数。”

[4] 唐纳德·惠勒,统计过程控制。
使用休哈特控制图进行业务优化"
(Donald J. Wheeler,“了解统计过程控制”)

计算每个定义区域的缺陷产品比例的示例。

图 6:计算每个定义区域的缺陷产品比例的示例。只有 3/20 的比率才是分数。

您应该注意遵循本文中的所有建议 在规划阶段 数据采集​​。在绝大多数情况下,如果数据不代表 100% 控制的结果,任何对可用历史数据的操纵以使用数学来扩大定义范围都会扭曲正在发生的情况。