LoRA 为什么必须把一个矩阵初始化为0

LoRA（Low-Rank Adaptation）中必须把其中一个矩阵（通常是 B）初始化为 0 的核心原因，是为了让微调在第0步（刚加载预训练权重时）不改变原模型的任何输出，也就是实现“从预训练模型精确起步”。

这不是可有可无的trick，而是LoRA设计中最关键的工程细节之一。

LoRA 的更新形式是：

h = W₀ x + ΔW x = W₀ x + (B A) x
（通常再乘一个缩放因子 α/r）

在训练刚开始的那一刻，如果 ΔW ≠ 0，就会立刻给原模型引入一个随机偏移，这会导致：

而把 B 初始化为 全零矩阵，无论 A 是什么（高斯随机、Kaiming、Xavier 随便），都有：

B A = 0（矩阵乘法性质：任何矩阵乘以零矩阵都得零矩阵）

于是 ΔW = 0 → h = W₀ x，完美保持原模型行为。

初始化方式	ΔW 初始化时是否为 0	梯度是否为 0	早期训练稳定性	实际效果（主流实践）
A=0, B=0	是	是（对称性问题）	极差	基本学不动（梯度对称坍缩）
A=随机, B=随机	否（随机大偏移）	正常	差	早期震荡大，难收敛
A=随机, B=0（主流）	是	正常	很好	最稳定，推荐
A=0, B=随机	是	正常	较好	比主流稍差一些

所以主流（包括原论文、PEFT库、绝大多数开源实现）都选 A 随机小方差初始化 + B = 0。

最近一些工作（尤其是 infinite-width 理论分析 + 大量实验）发现：

代表工作：

“Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics” (ICML 2025)
结论：非零初始化可以提升对次优学习率的鲁棒性，且最终精度往往不差甚至略好

但目前工程界仍然强烈推荐 B 初始化为 0，原因主要是：

LoRA 把 B 初始化为 0 的根本目的是：让低秩适配器在训练第0步“什么都不做”，从而最大限度地继承预训练模型的优秀初始化和稳定性。

这是工程上“稳”压倒一切的典型案例。

如果你现在做实验：

你是在 debug LoRA 训练不稳定，还是在准备面试/写论文想深入理解这个细节？可以告诉我具体场景，我再给你更针对性的建议～

相关文章