回归分析主要研究什么关系?
回归分析主要研究的是因变量(目标)和自变量(预测器)之间的关系。
在大数据分析中,回归分析是一种预测性的建模技术,这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,分为线性回归分析和非线性回归分析。
回归分析研究的主要问题是:
2、对求得的回归方程的可信度进行检验。
3、判断自变量X对因变量Y有无影响。
4、利用所求得的回归方程进行预测和控制。
2023-11-02 · 百度认证:SPSSAU官方账号,优质教育领域创作者
逐步回归分析研究X(自变量,通常为量数据)对Y(因变量,定量数据)的影响关系情况,X可以为多个,但并非所有X均会对Y产生影响;当X个数很多时,可以让系统自动识别出有影响的X;这一自动识别分析方法则称为逐步回归分析;如果全部X均没有显著性,此时系统默认返回 回归分析结果。
分析步骤共为四步,分别是:
第一步:首先对模型情况进行分析
第二步:分析X的显著性
第三步:判断X对Y的影响关系方向
第四步:其它
逐步回归分析仅在回归分析的基础上,加入了一项功能,即自动化移除掉不显著的X,通常逐步回归分析用于探索研究中。
逐步回归分析之后,可对回归模型进行检验。可包括以下四项:
多重共线性:可查看VIF值,如果全部小于10(严格是5),则说明模型没有多重共线性问题,模型构建良好;反之若VIF大于10说明模型构建较差。
自相关性:如果D-W值在2附近(1.7~2.3之间),则说明没有自相关性,模型构建良好,反之若D-W值明显偏离2,则说明具有自相关性,模型构建较差。自相关问题产生时建议对因变量Y数据进行查看。
残差正态性:在分析时可保存残差项,然后使用“直方图”直观检测残差正态性情况,如果残差直观上满足正态性,说明模型构建较好,反之说明模型构建较差。如果残差正态性非常糟糕,建议重新构建模型,比如对Y取对数后再次构建模型等。
异方差性:可将保存的残差项,分别与模型的自变量X或者因变量Y,作散点图,查看散点是否有明显的规律性,比如自变量X值越大,残差项越大/越小,这时此说明有规律性,模型具有异方差性,模型构建较差。如果有明显的异方差性,建议重新构建模型,比如对Y取对数后再次构建模型等。
另外,如果回归分析出现各类异常,请查看数据中是否有异常值(可通过比如描述分析、箱线图、散点图等查看),找出异常值,并且处理掉异常值(使用“异常值”功能)。也或者使用稳健回归(Robust回归进行分析,Robust回归是专门处理异常值情况下的回归模型)。
首先分析最终余下的X情况;以及被模型自动排除在外的X; 接着对模型拟合情况(比如R 2为0.3,则说明所有余下X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性).
模型余下的X一定具有显著性;具体分析X的影响关系情况即可.
回归系数B值大于0说明正向影响,反之负向影响.
比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)..
可以使用SPSSAU快速进行回归分析