【Python】统计科学之讲讲OC曲线是什么?

统计科学之讲讲OC曲线是什么?

张俊红发布于 今天 10:41

今天我们来聊聊什么是OC曲线,OC曲线是用来反映:一个批次的产品被接收的概率与该批次产品不合格率之间的关系。如下图这样的曲线:
【Python】统计科学之讲讲OC曲线是什么?

横轴是该批次的整体不良率(不合格率),纵轴是在该不合格率的情况有可能被消费者接受的概率。

是不是看上面这句话,不太懂什么意思,没关系,我们继续往下看,说不准就懂了。

OC曲线主要是用来说明抽样方案的特性的。通过曲线我们就能知道一个抽样方案的好坏。

假设现在你找了一个代工厂给你生产N台手机,代工厂生产完以后,你需要对这些手机的质量进行检查,那怎么检查呢?比较简单的方法就是把N台全部拆开来试用一遍,看看有没有问题,但是这种方法很显然不太合理。常规的做法就是从全部N里面随机抽取n台手机出来,然后用这n台手机的情况来反映总体N台的情况。并且需要事先规定好,当n里面发现c台质量有问题的时候,就认为整个批次都有问题,需要让代工厂回去重做。

在上面这个过程中,存在两种风险,一种是代工厂的风险,也叫生产者风险;另一种是你的风险,也就是消费者风险。

生产者风险是指虽然你的产品的不合格率低于事先大家规定好的不合格率(我们把这个事先定好的不合格率称为允收标准,简称AQL),但是仍有可能被拒绝的概率,因为我们是通过抽样来计算你的产品的不合格率,而不是针对全部产品计算不合格率。

消费者风险是指虽然产品的不合格率大于事先规定好的不合格率(我们把这个事先定好的不合格率称为拒收标准,简称LTPD),但是仍有可能被接收的概率。

那为什么会出现上面这两种风险呢?那是因为我们的检测是抽样,而不是全量检测的原因。比如我们知道如果扔硬币足够多次,难么正面反面出现的概率均是0.5,但是如果你只扔了10次,那么正面和反面出现的概率就不一定是0.5了,这就是用抽样来对全部产品质量做判断时的容易存在的两类风险。

要解决上面提到的这两种风险的解法就是增加抽样的样本量,如果是对总体N进行检查,那么就不会出现这种问题。但是对总体N检查需要付出很大的成本,所以需要在n和两个风险之间找到一个平衡点。即可接收风险范围的最小样本数n。

接下来,我们看下接收概率以及两类风险的具体取值应该如何计算。

假设总体N=1000,抽样n=100,有问题质量产品上限c = 2,不合格品率p为1.5%。因为有问题质量产品的上限是2,也就是从100个里面如果检测出有问题质量的产品数超过2,那么就拒绝接收这批产品。对应的接收概率就是从100个产品中检测出0个、1个、2个有问题质量产品的概率之后。在求取接收概率时不同概率分布对应的求法是不一样的,有二项式分布、超几何分布、泊松分布等。

通过让不合格品率p取不同的值,可以求出不同p值对应的接收概率,把这些点连起来就是我们开头看到的OC曲线。

以上是如何计算接收概率,计算得到接收概率以后,我们就可以计算两类风险值的大小。

一般α的取值为0.05,β的取值为0.1-0.2。

mysqlpython数据挖掘数据库网页爬虫

阅读 38发布于 今天 10:41

本作品系原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议


俊红的数据分析之路

公众号:《俊红的数据分析之路》,分享数据分析相关的内容。

avatar

张俊红

公众号:《俊红的数据分析之路》,分享数据分析相关的内容。

1 声望

0 粉丝

0 条评论

得票时间

avatar

张俊红

公众号:《俊红的数据分析之路》,分享数据分析相关的内容。

1 声望

0 粉丝

宣传栏

今天我们来聊聊什么是OC曲线,OC曲线是用来反映:一个批次的产品被接收的概率与该批次产品不合格率之间的关系。如下图这样的曲线:
【Python】统计科学之讲讲OC曲线是什么?

横轴是该批次的整体不良率(不合格率),纵轴是在该不合格率的情况有可能被消费者接受的概率。

是不是看上面这句话,不太懂什么意思,没关系,我们继续往下看,说不准就懂了。

OC曲线主要是用来说明抽样方案的特性的。通过曲线我们就能知道一个抽样方案的好坏。

假设现在你找了一个代工厂给你生产N台手机,代工厂生产完以后,你需要对这些手机的质量进行检查,那怎么检查呢?比较简单的方法就是把N台全部拆开来试用一遍,看看有没有问题,但是这种方法很显然不太合理。常规的做法就是从全部N里面随机抽取n台手机出来,然后用这n台手机的情况来反映总体N台的情况。并且需要事先规定好,当n里面发现c台质量有问题的时候,就认为整个批次都有问题,需要让代工厂回去重做。

在上面这个过程中,存在两种风险,一种是代工厂的风险,也叫生产者风险;另一种是你的风险,也就是消费者风险。

生产者风险是指虽然你的产品的不合格率低于事先大家规定好的不合格率(我们把这个事先定好的不合格率称为允收标准,简称AQL),但是仍有可能被拒绝的概率,因为我们是通过抽样来计算你的产品的不合格率,而不是针对全部产品计算不合格率。

消费者风险是指虽然产品的不合格率大于事先规定好的不合格率(我们把这个事先定好的不合格率称为拒收标准,简称LTPD),但是仍有可能被接收的概率。

那为什么会出现上面这两种风险呢?那是因为我们的检测是抽样,而不是全量检测的原因。比如我们知道如果扔硬币足够多次,难么正面反面出现的概率均是0.5,但是如果你只扔了10次,那么正面和反面出现的概率就不一定是0.5了,这就是用抽样来对全部产品质量做判断时的容易存在的两类风险。

要解决上面提到的这两种风险的解法就是增加抽样的样本量,如果是对总体N进行检查,那么就不会出现这种问题。但是对总体N检查需要付出很大的成本,所以需要在n和两个风险之间找到一个平衡点。即可接收风险范围的最小样本数n。

接下来,我们看下接收概率以及两类风险的具体取值应该如何计算。

假设总体N=1000,抽样n=100,有问题质量产品上限c = 2,不合格品率p为1.5%。因为有问题质量产品的上限是2,也就是从100个里面如果检测出有问题质量的产品数超过2,那么就拒绝接收这批产品。对应的接收概率就是从100个产品中检测出0个、1个、2个有问题质量产品的概率之后。在求取接收概率时不同概率分布对应的求法是不一样的,有二项式分布、超几何分布、泊松分布等。

通过让不合格品率p取不同的值,可以求出不同p值对应的接收概率,把这些点连起来就是我们开头看到的OC曲线。

以上是如何计算接收概率,计算得到接收概率以后,我们就可以计算两类风险值的大小。

一般α的取值为0.05,β的取值为0.1-0.2。

以上是 【Python】统计科学之讲讲OC曲线是什么? 的全部内容, 来源链接: utcz.com/a/109162.html

回到顶部