岭回归（Ridge Regression）辨析

岭回归（Ridge Regression）全面辨析

岭回归是线性回归中最经典的正则化（regularization）方法之一，主要用于解决多重共线性（multicollinearity）、特征维度高、过拟合等问题。下面从多个角度系统对比和辨析岭回归与相关方法。

方法	目标函数（损失函数）	正则化项	数学形式简写	是否产生稀疏解（系数=0）
普通最小二乘 OLS	(\min \sum (y_i – \hat{y}_i)^2) = (\min \| \mathbf{y} – \mathbf{X}\beta \|^2_2)	无	RSS	否
岭回归 Ridge	(\min \| \mathbf{y} – \mathbf{X}\beta \|^2_2 + \lambda \|\beta\|_2^2)	L2 正则化	RSS + λ‖β‖₂²	否（趋近0，但不等于0）
Lasso	(\min \| \mathbf{y} – \mathbf{X}\beta \|^2_2 + \lambda \|\beta\|_1)	L1 正则化	RSS + λ‖β‖₁	是（很多系数严格为0）

方法	闭式解（矩阵形式）	是否总存在唯一解	备注
OLS	(\hat{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y})	否（当 XᵀX 奇异时不存在）	标准公式
Ridge	(\hat{\beta} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y})	是（几乎总是可逆）	加入 λI 使矩阵稳定
Lasso	无闭式解（不可微），需迭代优化（如坐标下降、LARS、近端梯度等）	是	—

岭回归最大的工程优势：即使特征严重共线性（XᵀX 接近奇异），只要 λ > 0，矩阵几乎总是可逆，解稳定。

假设只有两个特征（β₁, β₂），目标是最小化残差平方和（RSS），约束条件不同：

OLS：没有约束，等高线（椭圆）中心就是最优解。
Ridge (L2)：约束区域是圆形（或球面） $|\beta|_2^2 \leq t$
→ 等高线与圆相切时，几乎不可能正好切在坐标轴上 → 系数趋近0但不等于0。
Lasso (L1)：约束区域是菱形（或八面体） $|\beta|_1 \leq t$
→ 菱形有尖角在坐标轴上 → 等高线很容易在尖角处相切 → 很多系数严格等于0。

这就是为什么：

维度	OLS	Ridge (L2)	Lasso (L1)
无偏性	无偏	有偏（bias ↑）	有偏（bias ↑）
方差	高（尤其共线性时）	降低（variance ↓）	降低
Bias-Variance权衡	—	通过λ控制	通过λ控制
处理多重共线性	很差（系数不稳定）	优秀	优秀
特征选择能力	无	无（所有特征都保留）	有（自动把不重要特征系数置0）
模型稀疏性	否	否	是
系数符号稳定性	可能翻转（共线性严重时）	更稳定	可能不稳定（L1路径不连续）
当 p >> n 时	失效（无解或多解）	仍然可用	可用（最多选 n 个特征）
预测能力	共线性时差	通常优于OLS	在稀疏真实模型下往往更好
计算复杂度	最低（一次矩阵求逆）	低（类似OLS）	较高（迭代优化）

一句话总结：
岭回归牺牲了一点无偏性，换来了更高的数值稳定性和更好的泛化能力，特别适合病态数据（ill-conditioned data）。

Elastic Net（L1 + L2 混合）往往是最终折中方案，兼顾了两者的优点。

希望这个多维度辨析能帮你彻底搞清楚岭回归的定位、优势与局限。

如果你想看岭回归的数学推导、岭迹图（ridge trace）、代码实现对比（sklearn）、几何图示解释、或者与 Elastic Net 的进一步对比，可以继续告诉我！

归档