回归:连续数据
分类:离散数据
本质:找到最佳拟合线
线性回归
本质:找到y跟x之间的线性关系
y = mx + b
m是斜率(slope),b是截距(intercept)
在sklearn中,斜率保存在 reg.coef_
参数中,截距保存在 reg.intercept_
参数中。
线性回归误差
误差平方和(Sum of Squared Errors,SSE)
- Σ errori2
- 如何最小化SSE
- 梯度下降法
- 普通最小二乘法(Ordinary Least Square,OLS),也是sklearn中使用的方法。
- 缺点
- 随样本数量增多而增加,即使表现很好或类似。如图:
两图表现类似,但由于SSE的特性是误差的总和,所以右图的SSE大于左图,所以不能很好的反应回归的拟合情况。
- 随样本数量增多而增加,即使表现很好或类似。如图:
R2
- 表示随着X的变化,y的变化情况。
- 范围 0 - 1(0最差,1最好)