【Python】统计科学之一种常见的关于率指标的错误分析思路
统计科学之一种常见的关于率指标的错误分析思路
张俊红发布于 今天 10:37
今天给大家分享一种在数据分析过程中关于率指标分析可能会犯的一种错误。这个问题其实很多新人都会犯,有的老人也会犯,而且很多时候错了以后并不自知。刚好读者群有人在问类似的问题,所以就来写篇文章分享下。
先看个例子,如下展示了XXX公司各个渠道的留存率情况,现在如果想要看一下该公司总计的留存率情况应该怎么算呢?
直观看上去应该有两种算法,第一种算法是用各个渠道所有的留存用户数÷各个渠道所有的新注册用户数,第二种算法是直接对三个渠道的留存率求一个平均值。那么这两种算法有啥区别呢?算出来的结果有啥不一样呢?如果你把上表中的数字用两种算法算一下,算出来的结果是不一样的。那到底哪种是正确的呢?
如果你平常是用的第一种算法,那么恭喜你,你的做法是对的,但是第二种算法错在哪里了呢?这是因为不同渠道的新注册用户数是不一样的,所以对最后结果的影响程度也是不一样的,如果你直接对三个渠道的留存率求平均值,也就是你假设了这三个渠道最后对总留存率的影响是一样的,但显然是不一样的。所以这里面引出了第三种算法,即:
试着动手算一算,用第三种算法算出来的结果和第一种算法算出来的结果是一样的。
那如果不同渠道的新注册用户数是一样的情况下时,比如下表这样,这个时候用上面三种不同的算法算出来的结果都会是一样的。
以上就是关于率指标分析经常会犯的一个错误,其实上面这种情况不仅适用于率指标,准确的来说,应该是适用于所有需要分组相除的情况,比如每个班级的平均分和年级总平均分之间的关系。希望对你有用。
mysqlpython数据挖掘网页爬虫深度学习
阅读 31发布于 今天 10:37
本作品系原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议
张俊红
公众号:《俊红的数据分析之路》,分享数据分析相关的内容。
1 声望
0 粉丝
张俊红
公众号:《俊红的数据分析之路》,分享数据分析相关的内容。
1 声望
0 粉丝
宣传栏
今天给大家分享一种在数据分析过程中关于率指标分析可能会犯的一种错误。这个问题其实很多新人都会犯,有的老人也会犯,而且很多时候错了以后并不自知。刚好读者群有人在问类似的问题,所以就来写篇文章分享下。
先看个例子,如下展示了XXX公司各个渠道的留存率情况,现在如果想要看一下该公司总计的留存率情况应该怎么算呢?
直观看上去应该有两种算法,第一种算法是用各个渠道所有的留存用户数÷各个渠道所有的新注册用户数,第二种算法是直接对三个渠道的留存率求一个平均值。那么这两种算法有啥区别呢?算出来的结果有啥不一样呢?如果你把上表中的数字用两种算法算一下,算出来的结果是不一样的。那到底哪种是正确的呢?
如果你平常是用的第一种算法,那么恭喜你,你的做法是对的,但是第二种算法错在哪里了呢?这是因为不同渠道的新注册用户数是不一样的,所以对最后结果的影响程度也是不一样的,如果你直接对三个渠道的留存率求平均值,也就是你假设了这三个渠道最后对总留存率的影响是一样的,但显然是不一样的。所以这里面引出了第三种算法,即:
试着动手算一算,用第三种算法算出来的结果和第一种算法算出来的结果是一样的。
那如果不同渠道的新注册用户数是一样的情况下时,比如下表这样,这个时候用上面三种不同的算法算出来的结果都会是一样的。
以上就是关于率指标分析经常会犯的一个错误,其实上面这种情况不仅适用于率指标,准确的来说,应该是适用于所有需要分组相除的情况,比如每个班级的平均分和年级总平均分之间的关系。希望对你有用。
以上是 【Python】统计科学之一种常见的关于率指标的错误分析思路 的全部内容, 来源链接: utcz.com/a/109125.html
得票时间