【Python】统计科学之多元回归分析
统计科学之多元回归分析
张俊红发布于 今天 02:54
01.前言
前面我们讲了一元线性回归,没看过的可以先去看看:[一元线性回归分析]。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。
多元回归的形式如下:
02.参数估计
多元回归方程中各个参数也是需要估计的,关于为什么要估计,其实我们在一元线性回归里面也讲过。与一元线性回归不同的是,一元线性回归拟合的是一条线,而多元回归拟合的是一个面。使用的方法也是最小二乘法。
03.拟合程度判断
在多元回归里面拟合程度判断与一元回归也类似,也主要有总平方和、回归平方和、残差平方和这三种。
多元回归里面也有R^2,R^2 = SSR/SST = 1 - SSE/SST。因为增加自变量的会降低残差SSE,进而导致R^2增加。
为什么加入新的变量会使SSE降低呢?因为每新加入一个新的变量,这个新的变量就会贡献一部分平方和,而这个平方和就是从残差里面分离出来的。
为了避免盲目增加自变量而导致得到一个虚高的R^2,优秀的前辈们又想出了一个新的指标,即修正后的R^2。公式如下:
公式中的n为样本量的个数,k为自变量的个数,通过n和k来调整R^2,这样就不会出现随着自变量个数的增加而导致R^2也跟着增加的情况。
我们一般用调整后的R^2来判断多元回归的准确性。
除了R^2以外,我们还可以使用标准误差来衡量回归模型的好坏。标准误差就是均方残差(MSE)的平方根,其表示根据各自变量x来预测因变量y的平均预测误差。
04.显著性检验
我们在一元线性回归里面做过显著性检验,在多元回归里面也是同样需要做显著性判断的。
4.1线性关系检验
线性关系检验就是检验y和多个x之间的关系是否显著,是总体显著性检验。
检验方法与一元线性回归一致,即我们假设没有线性关系,然后对变量进行F检验,具体的详细介绍,参考一元线性回归中讲解的。
4.2回归系数检验
线性关系显著性检验是对多个变量的一个显著性判断,也就是说只要多个x中有一个x对y的影响是显著的,线性关系就是显著的。而回归系数检验是用来看每一个x对应的系数是否是显著的。要看某个变量的系数是否显著,假设这个变量的系数等于0,然后进行t检验判断显著性。
具体的t检验可以查看假设检验的内容:[统计学的假设检验]。
05.多重共线性
多元回归与一元回归还有一个不同点就是,多元回归有可能会存在多重共线性。
什么是多重共线性呢?多元回归里面我们希望是多个x分别对y起作用,也就是x分别与y相关。但在实际场景中,可能x1与x2之间彼此相关,我们把这种x变量之间彼此相关的情况称为多重共线性。多重共线性可能会让回归得到一个错误的结果。
既然多重共线性的问题很严重,那我们应该如何发现呢?最简单的一种方法就是求变量之间的相关性,如果两个变量之间高度相关,就可以认为是存在多重共线性。
对于存在多重共线性问题的变量,我们一般会把其中一个舍弃。
以上就是关于多元回归的一个简单介绍,大家可以看到很多内容没有展开来讲,主要是因为这些东西在之前的文章都讲过了。如果没有看过的同学,可以去前面对应的文章翻翻。
mysqlpython机器学习数据库网页爬虫
阅读 24发布于 今天 02:54
本作品系原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议
张俊红
公众号:《俊红的数据分析之路》,分享数据分析相关的内容。
1 声望
0 粉丝
张俊红
公众号:《俊红的数据分析之路》,分享数据分析相关的内容。
1 声望
0 粉丝
宣传栏
01.前言
前面我们讲了一元线性回归,没看过的可以先去看看:[一元线性回归分析]。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。
多元回归的形式如下:
02.参数估计
多元回归方程中各个参数也是需要估计的,关于为什么要估计,其实我们在一元线性回归里面也讲过。与一元线性回归不同的是,一元线性回归拟合的是一条线,而多元回归拟合的是一个面。使用的方法也是最小二乘法。
03.拟合程度判断
在多元回归里面拟合程度判断与一元回归也类似,也主要有总平方和、回归平方和、残差平方和这三种。
多元回归里面也有R^2,R^2 = SSR/SST = 1 - SSE/SST。因为增加自变量的会降低残差SSE,进而导致R^2增加。
为什么加入新的变量会使SSE降低呢?因为每新加入一个新的变量,这个新的变量就会贡献一部分平方和,而这个平方和就是从残差里面分离出来的。
为了避免盲目增加自变量而导致得到一个虚高的R^2,优秀的前辈们又想出了一个新的指标,即修正后的R^2。公式如下:
公式中的n为样本量的个数,k为自变量的个数,通过n和k来调整R^2,这样就不会出现随着自变量个数的增加而导致R^2也跟着增加的情况。
我们一般用调整后的R^2来判断多元回归的准确性。
除了R^2以外,我们还可以使用标准误差来衡量回归模型的好坏。标准误差就是均方残差(MSE)的平方根,其表示根据各自变量x来预测因变量y的平均预测误差。
04.显著性检验
我们在一元线性回归里面做过显著性检验,在多元回归里面也是同样需要做显著性判断的。
4.1线性关系检验
线性关系检验就是检验y和多个x之间的关系是否显著,是总体显著性检验。
检验方法与一元线性回归一致,即我们假设没有线性关系,然后对变量进行F检验,具体的详细介绍,参考一元线性回归中讲解的。
4.2回归系数检验
线性关系显著性检验是对多个变量的一个显著性判断,也就是说只要多个x中有一个x对y的影响是显著的,线性关系就是显著的。而回归系数检验是用来看每一个x对应的系数是否是显著的。要看某个变量的系数是否显著,假设这个变量的系数等于0,然后进行t检验判断显著性。
具体的t检验可以查看假设检验的内容:[统计学的假设检验]。
05.多重共线性
多元回归与一元回归还有一个不同点就是,多元回归有可能会存在多重共线性。
什么是多重共线性呢?多元回归里面我们希望是多个x分别对y起作用,也就是x分别与y相关。但在实际场景中,可能x1与x2之间彼此相关,我们把这种x变量之间彼此相关的情况称为多重共线性。多重共线性可能会让回归得到一个错误的结果。
既然多重共线性的问题很严重,那我们应该如何发现呢?最简单的一种方法就是求变量之间的相关性,如果两个变量之间高度相关,就可以认为是存在多重共线性。
对于存在多重共线性问题的变量,我们一般会把其中一个舍弃。
以上就是关于多元回归的一个简单介绍,大家可以看到很多内容没有展开来讲,主要是因为这些东西在之前的文章都讲过了。如果没有看过的同学,可以去前面对应的文章翻翻。
以上是 【Python】统计科学之多元回归分析 的全部内容, 来源链接: utcz.com/a/108821.html
得票时间