【Python】统计科学系列之聊聊置信度与置信区间

统计科学系列之聊聊置信度与置信区间

张俊红发布于 今天 03:11

【Python】统计科学系列之聊聊置信度与置信区间
今天这篇聊聊统计学里面的置信度和置信区间。

1.点估计

在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知道了。

现在你想要知道一个学校学生的身高情况,你可以把所有的学生测量一遍,然后得到答案,这种方法可以,而且得到的数据肯定是最真实的,但是这里有一个问题,什么问题呢?就是如果学生人数太多,全部测量的话工作量太大了,那怎么办呢?那就随机挑选一部分学生,然后测量这一部分学生的身高,得到一个值(一般用平均值),用这一部分的平均值来估计整体学生的身高情况,我们把这种估计方式称为点估计

现在你要看一下某流水线上 iphone 手机的不合格率,怎么看呢?最笨的方法还是把所有的手机全部开机试用,统计不合格手机的占比,这样可以吗?很明显是不可以的。那怎么才能知道这一条流水线的质量,那就是抽样,抽取整条流水线上的部分手机进行检验,会得到一个合格率,然后用这个合格率去估计整条流水线的合格率,同样这种方式也是点估计

那现在是不是大概理解点估计的意思了,就是用随机抽样的样本的计算出来的指标值去估计整体指标情况。常用的点估计方法有如下:

2.区间估计

以前上学的时候经常会考试,考完试以后老爱去估分,一般人估分不太可能直接估一个具体的数,肯定都是估一个大概的数,啥叫大概的数呢?就是比如高考分数预计 600 左右,这个左右其实就是一个区间,还有平常很多食品包装袋上会写 ±0.5 KG,表示啥意思呢?就是要么多给了你 0.5 KG,要么少给了你 0.5 KG。我们把这种用一个范围来对一个事情进行估计的方式称为区间估计,得出来的区间就是置信区间

3.置信度

你是估算出一个区间了,但是你估算的准不准呢?准确度又有多大呢?我们把这个估算的区间的准确度(可信度)称为置信度。比如说我有 95% 的把握估计我高考分数是 600-650,这里的置信区间就是 [600,650],置信度就是 95%。

一般置信度和置信区间是同向的,啥意思呢?就是置信度和置信区间一般是相同趋势。当置信度很高时,置信区间也会很大;当置信区间很大时,置信度也会很高。

比如我有 100% 的把握估计我高考分数是 0-750,这里的置信区间是 [0,750] 包含了所有分数的可能,那置信度肯定是 100% 哈。

4.如何计算置信区间

那么我们该如何通过部分样本来计算总体的一个置信区间呢?主要有下面几个步骤:

step1:首先明确要求解的问题。就是你要预估什么?不管是全校学生身高还是学生成绩。

step2:求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样(标准差反映了整个样本对样本平均数的离散程度,标准误差反映样本平均数对总体平均数的变异程度)。

step3:确定需要的置信水平。比如常用的 95% 的置信水平,就是我有 95% 的把握估算对,这样可以保证样本的均值会落在总体平均值2个标准差范围内。

step4:查z表,求z值。什么是z表呢?是不是已经忘记了,z表是标准正态分布表,是用来反映标准分与概率值之间的关系表,也就是通过标准分能查到概率值,通过概率值也可以反查标准分。

现在我们知道了 95% 的置信水平对应的概率值是 2.5% ,只需要通过标准正态分布表查出 2.5% 概率对应的标准分即可,也就是z值。

常用置信水平与标准分z值的对应表

【Python】统计科学系列之聊聊置信度与置信区间

step5:计算置信区间

最后置信区间就为 [a,b]。

mysqlpython数据库网页爬虫

阅读 7发布于 今天 03:11

本作品系原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议

avatar

张俊红

公众号:《俊红的数据分析之路》,分享数据分析相关的内容。

1 声望

0 粉丝

0 条评论

得票时间

avatar

张俊红

公众号:《俊红的数据分析之路》,分享数据分析相关的内容。

1 声望

0 粉丝

宣传栏

【Python】统计科学系列之聊聊置信度与置信区间
今天这篇聊聊统计学里面的置信度和置信区间。

1.点估计

在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知道了。

现在你想要知道一个学校学生的身高情况,你可以把所有的学生测量一遍,然后得到答案,这种方法可以,而且得到的数据肯定是最真实的,但是这里有一个问题,什么问题呢?就是如果学生人数太多,全部测量的话工作量太大了,那怎么办呢?那就随机挑选一部分学生,然后测量这一部分学生的身高,得到一个值(一般用平均值),用这一部分的平均值来估计整体学生的身高情况,我们把这种估计方式称为点估计

现在你要看一下某流水线上 iphone 手机的不合格率,怎么看呢?最笨的方法还是把所有的手机全部开机试用,统计不合格手机的占比,这样可以吗?很明显是不可以的。那怎么才能知道这一条流水线的质量,那就是抽样,抽取整条流水线上的部分手机进行检验,会得到一个合格率,然后用这个合格率去估计整条流水线的合格率,同样这种方式也是点估计

那现在是不是大概理解点估计的意思了,就是用随机抽样的样本的计算出来的指标值去估计整体指标情况。常用的点估计方法有如下:

2.区间估计

以前上学的时候经常会考试,考完试以后老爱去估分,一般人估分不太可能直接估一个具体的数,肯定都是估一个大概的数,啥叫大概的数呢?就是比如高考分数预计 600 左右,这个左右其实就是一个区间,还有平常很多食品包装袋上会写 ±0.5 KG,表示啥意思呢?就是要么多给了你 0.5 KG,要么少给了你 0.5 KG。我们把这种用一个范围来对一个事情进行估计的方式称为区间估计,得出来的区间就是置信区间

3.置信度

你是估算出一个区间了,但是你估算的准不准呢?准确度又有多大呢?我们把这个估算的区间的准确度(可信度)称为置信度。比如说我有 95% 的把握估计我高考分数是 600-650,这里的置信区间就是 [600,650],置信度就是 95%。

一般置信度和置信区间是同向的,啥意思呢?就是置信度和置信区间一般是相同趋势。当置信度很高时,置信区间也会很大;当置信区间很大时,置信度也会很高。

比如我有 100% 的把握估计我高考分数是 0-750,这里的置信区间是 [0,750] 包含了所有分数的可能,那置信度肯定是 100% 哈。

4.如何计算置信区间

那么我们该如何通过部分样本来计算总体的一个置信区间呢?主要有下面几个步骤:

step1:首先明确要求解的问题。就是你要预估什么?不管是全校学生身高还是学生成绩。

step2:求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样(标准差反映了整个样本对样本平均数的离散程度,标准误差反映样本平均数对总体平均数的变异程度)。

step3:确定需要的置信水平。比如常用的 95% 的置信水平,就是我有 95% 的把握估算对,这样可以保证样本的均值会落在总体平均值2个标准差范围内。

step4:查z表,求z值。什么是z表呢?是不是已经忘记了,z表是标准正态分布表,是用来反映标准分与概率值之间的关系表,也就是通过标准分能查到概率值,通过概率值也可以反查标准分。

现在我们知道了 95% 的置信水平对应的概率值是 2.5% ,只需要通过标准正态分布表查出 2.5% 概率对应的标准分即可,也就是z值。

常用置信水平与标准分z值的对应表

【Python】统计科学系列之聊聊置信度与置信区间

step5:计算置信区间

最后置信区间就为 [a,b]。

以上是 【Python】统计科学系列之聊聊置信度与置信区间 的全部内容, 来源链接: utcz.com/a/107704.html

回到顶部