线性回归通俗理解
线性回归是在金融数据分析中很基础的机器学习算法,本文将通俗易懂的介绍线性回归的基本概念,优缺点和逻辑回归的比较。
首先回顾一下之前统计学习中比较重要的几个关键点:
---自变量销衡和因变量
在统计学习的背景下,有两种类型的数据:
· 自变量:可以直接控制的数据。
· 因变量:无法直接控制的数据。
无法控制的数据,即因变量,需要进行预测或估计。
---模型
模型本质上就是一个转换引擎,主要的作用就是找到自变量和因变量之间的关系函数。
---参数
参数是添加到模型中用于输出预测的要素。
什么是线性回归?
线性回归的位置如上图所示,它属于机器学习 — 监督学习 — 回归 — 线性回归。
什么是回归?
回归是一种基于独立预测变量对目标值进行建模的方法。回归的目的主要是用于预测和找出变量之间的因果关系。比如预测明天的天气温度,预测股票的走势。回归之所以能预测是因为它通过历史数据,摸透了"套路",然后通过这个套路来预测未来的结果。
回归技术主要根据自变量的数量以及自变量和因变量之间的关系类型而有所不同。
什么是线性?
线性的意思是:数据点排成一条直线(或接近直线),或者沿直线延长。线性意味着,因变量和自变量之间的关系可以用直线表示。
"越…,越…"符合这种说法的就可能是线性关系:
「房子」越大,「租金」就越高
「金子」买的越多,花的「钱」就越多
杯子里的「水」越多,「散闷重量」就越大
……
但是并非所有"越…,越…"都是线性的,比如"充电越久,电量越高",它就类似下面的非线性曲线:
线性关系不仅仅只能存在 2 个变量(二维平面)。3 个变量时(三维空间),线性关系就是一个平面,4 个变量时(四维空间),线性关系就是一个体。以此类推...
什么是线性回归?
线性回归本来是是统计学里的概念,现在经常被用在机器学习中。
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和亏掘做自变量之间是线性关系,则称为多元线性回归分析。
如果 2 个或者多个变量之间存在"线性关系",那么我们就可以通过历史数据,摸清变量之间的"套路",建立一个有效的模型,来预测未来的变量结果。
优点:
建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快;
可以根据系数给出每个变量的理解和解释。
缺点:
不能很好地拟合非线性数据。所以需要先判断变量之间是否是线性关系。