回归:连续数据
分类:离散数据

本质:找到最佳拟合线

线性回归

本质:找到y跟x之间的线性关系

y = mx + b

m是斜率(slope),b是截距(intercept)
在sklearn中,斜率保存在 reg.coef_ 参数中,截距保存在 reg.intercept_ 参数中。

image.png

线性回归误差
  • 误差平方和(Sum of Squared Errors,SSE)

    • Σ errori2
    • 如何最小化SSE
      • 梯度下降法
      • 普通最小二乘法(Ordinary Least Square,OLS),也是sklearn中使用的方法。
    • 缺点
      • 随样本数量增多而增加,即使表现很好或类似。如图:
        image.png
        两图表现类似,但由于SSE的特性是误差的总和,所以右图的SSE大于左图,所以不能很好的反应回归的拟合情况。
  • R2

    • 表示随着X的变化,y的变化情况。
    • 范围 0 - 1(0最差,1最好)