相关系数r的取值范围(回归分析相关系数r怎么算)
分析连续变量之间线性相关性的强度,用适当的统计指标表示的过程称为相关分析。
直接绘制散点图
判断两个变量是否有线性关系最直观的方法是直接绘制散点图。
2.绘制散点图矩阵
当需要同时调查多个变量之间的关系时,逐一绘制它们之间的散点图会非常麻烦。此时,散点图矩阵可以同时绘制各变量之间的散点图,以快速找到多个变量之间的主要相关性,这在多线性回归中尤为重要。
计算相关系数
为了更准确地描述变量之间的线性相关性,可以通过计算相关系数进行相关分析。常用于二元变量的相关分析Pearson相关系数、Spearman秩序相关系数和判断系数。
(1)Pearson相关系数
Pearson计算公式如下:
相关系数r的取值范围:-1<=r<=1
0<|r|<表示线性相关程度不同:
(2)Spearman秩相关系数
Pearson线性相关系数要求连续变量的值服从正态分布。不服从正态分布的变量、分类或等级变量之间的相关性Spearman秩序相关系数,又称等级相关系数来描述。
计算公式如下:
两个变量成对的取值分别按从小到大(或从大到小)的顺序编排,Ri代表Xi的秩次,Qi代表Yi的秩次,Ri-Qi为Xi、Yi秩次之差。
给出一个变量x=(X1,X2,…,Xi,…,Xn)秩序的计算过程:
对于一个变量,相同的值必须有相同的顺序,因此计算中使用的顺序是排序后位置的平均值。
只要两个变量之间有严格单调的函数关系,它们就是完全的Spearman相关相关Pearson相关不同,Pearson只有当变量有线性关系时,相关性才完全相关。
在实际应用计算中,应对上述两个相关系数进行假设检验,并采用t检验方法检验其显著性,以确定其相关性。在正态分布假设下,Spearman与秩相关系数Pearson相关系数在效率上等同,更适合连续测量数据Pearson分析相关系数。
(3)判断系数
判断系数是相关系数的平方,使用r^2.用来衡量回归方程对y的解释。判断系数值范围为:0<=r^2<=1。r^2越接近1,表示x与y相关性越强;r^越接近0,两个变量之间几乎没有直线关系。
下面将通过餐饮系统不同菜品的日销量数据,来进行不同菜品间的相关性分析。数据的下载地址为:
https://github.com/windform/R/blob/master/R语言数据挖掘/数据质量分析/chapter3/data/catering_sale_all.csv
菜品日销量数据格式如下:
分析代码如下:
> # 读取数据
> cordata <- read.csv(file = “./data/catering_sale_all.csv”, header = TRUE)
> # 找出相关系数矩阵
> cor(cordata[, 2:11])
蒸鸡爪的百合酱 翡翠蒸香茜饺 金银蒜汁蒸排骨 乐膳真味鸡 蜜汁焗餐包 生炒菜心 铁板酸菜豆腐 香煎韭菜饺 香煎罗卜糕 原汁原味的菜心
蒸鸡爪的百合酱 1.000000000 0.009205803 0.01679933 0.45563817 NA 0.30849559 0.20489784 0.12744825 -0.09027555 0.42831626
翡翠蒸香茜饺 0.009205803 1.000000000 0.30443437 -0.01227936 NA -0.18044636 -0.02690814 0.06234445 0.27027633 0.02046215
金银蒜汁蒸排骨 0.016799326 0.304434367 1.00000000 0.03513460 NA -0.18428973 0.18727155 0.12154343 0.07780811 0.02907437
乐膳真味鸡 0.455638166 -0.012279359 0.03513460 1.00000000 NA 0.32546172 0.29769187 -0.06886643 -0.03022205 0.42187795
蜜汁焗餐包 NA NA NA NA 1 NA NA NA NA NA
生炒菜心 0.308495593 -0.180446360 -0.18428973 0.32546172 NA 1.00000000 0.36978749 0.03823316 0.04989806 0.12298779
铁板酸菜豆腐 0.204897840 -0.026908140 0.18727155 0.29769187 NA 0.36978749 1.00000000 0.09554300 0.15795755 0.56733190
香煎韭菜饺 0.127448249 0.062344452 0.12154343 -0.06886643 NA 0.03823316 0.09554300 1.00000000 0.17833563 0.04968889
香煎罗卜糕 -0.090275548 0.270276328 0.07780811 -0.03022205 NA 0.04989806 0.15795755 0.17833563 1.00000000 0.08898022
原汁原味的菜心 0.428316260 0.020462147 0.02907437 0.42187795 NA 0.12298779 0.56733190 0.04968889 0.08898022 1.00000000
由于缺失值的出现,相关系数的计算结果也出现了NA,但不影响其它菜肴的相关系数。从以上结果可以看出,如果顾客点百合酱蒸鸡爪,点玉蒸饺、金银蒜汁排骨、炒萝卜糕、铁板酸菜豆腐、炒韭菜饺子等主食的相关性相对较低。相反,点乐膳真鸡、生炒原菜心的相关性较高。
以上是 相关系数r的取值范围(回归分析相关系数r怎么算) 的全部内容, 来源链接: utcz.com/wiki/741015.html