扩散模型对齐:DMPO 让模型更懂人类偏好(2026年最新进展总结)
2023年底到2025年,扩散模型(尤其是文生图模型)的对齐(alignment)方向经历了从RLHF → DPO家族的快速迭代。2025年7月出现的一个重要工作就是 DMPO(Divergence Minimization Preference Optimization),它被认为是当前最强/最稳定的扩散模型偏好优化方法之一。
一、扩散模型对齐的演进路线(简要时间线)
| 时间 | 方法 | 核心思想 | 代表论文 / 缩写 | 主要问题解决 / 局限性 |
|---|---|---|---|---|
| 2023早期 | RL-based | PPO + reward model | DDPO, DPOK, AlignProp等 | 训练不稳定、reward hacking、采样开销大 |
| 2023.11 | Diffusion-DPO | 把DPO(LLM上的成功方法)迁移到扩散模型 | Diffusion-DPO (Salesforce) | 首次把DPO用到扩散,简单有效,但forward KL有mean-seeking倾向 |
| 2024-2025 | DSPO, D-Fusion等 | score function / 多步优化变体 | DSPO (ICLR 2025)等 | 更贴合扩散的score matching,但仍基于forward KL |
| 2025.7 | DMPO | 反向KL + 显式最小化散度 | Divergence Minimization PO | 解决mean-seeking → mode-seeking,更锐利、更贴合高偏好样本 |
二、为什么普通Diffusion-DPO不够好?(核心痛点)
Diffusion-DPO(以及大多数后续DPO变体)本质上优化的是 forward KL散度:
Loss ≈ -log σ(β log(π(y_w|x)/π_ref(y_w|x)) – β log(π(y_l|x)/π_ref(y_l|x)))
这导致模型倾向于“平均”所有高奖励区域(mean-seeking),生成的结果虽然整体不错,但缺少峰值锐度,在人类主观审美(如艺术感、构图冲击力)上经常显得“安全但平庸”。
人类偏好数据往往是多模态、高峰值的:一张图特别戳中某人,其他很多“还行”的图都会被打低分。forward KL 会把概率质量“抹平”,而我们真正想要的是把概率集中在最优模式上。
三、DMPO 的核心创新(2025年最值得关注的点)
DMPO = Divergence Minimization Preference Optimization
核心改动:把优化目标从 forward KL 转向 reverse KL(也叫 I-projection),同时显式最小化两种散度。
数学上,DMPO 试图最小化:
D_{KL}(π{ref} || π) + λ D{f}(π || π_{ref}) (或类似加权形式)
- reverse KL 是 mode-seeking:会把概率质量尽可能集中在高概率(高偏好)的区域,生成更锐利、更极致的样本。
- 额外 divergence minimization term 防止模型跑偏太远,维持分布的基本覆盖性。
实际效果(根据 arXiv 2507.07510 和 OpenReview 实验):
- 在 Pick-a-Pic、HPSv2、ImageReward 等自动指标上,DMPO 经常超越 Diffusion-DPO、DSPO 等基线 3–8%。
- 人类偏好胜率提升明显,尤其在视觉冲击力、艺术性、细节质量这类主观维度。
- 训练更稳定,崩坏(mode collapse)概率更低。
四、DMPO vs 其他主流方法的对比(2026年初视角)
| 方法 | KL 方向 | 是否mode-seeking | 锐利度/极致感 | 训练稳定性 | 指标(大致相对提升) | 代表模型表现 |
|---|---|---|---|---|---|---|
| Diffusion-DPO | forward | ✗ | 中等 | ★★★★☆ | baseline | SDXL-base+ |
| DSPO | forward-ish | △ | 中上 | ★★★★★ | +2~5% | 很稳 |
| D-Fusion | 混合 | △ | 中上 | ★★★★☆ | +3~6% | 视觉一致性好 |
| DMPO | reverse | ✓ | 高 | ★★★★★ | +5~12% | 当前SOTA级 |
| RL-based | – | 依赖采样 | 高(但易崩) | ★★☆☆☆ | 波动大 | 早期方法 |
五、实际使用建议(如果你现在要对齐一个扩散模型)
- 数据:优先用 Pick-a-Pic v2 / HPD v2 / 自建高质量偏好对(至少几万到几十万对)
- 基模型:SDXL、Flux.1-dev、SD3、AuraFlow、Playground v3 等 2025年后主流模型
- 首选尝试顺序:
- 先 Diffusion-DPO(最成熟,代码最多)
- 再 DSPO(如果想要更贴合score matching)
- 强烈建议试 DMPO(2025下半年到2026年最有潜力超车的方法)
- 超参Tips:
- β(温度)通常设 0.1~0.5,DMPO 里 reverse KL 可能需要稍高一点
- 加 safeguard(如 Diffusion-SDPO 2025年底的变体)可进一步提升安全性与质量一致性
DMPO 本质上是“用 reverse KL 把概率质量更狠地压到人类最喜欢的那些尖峰模式上”,这正是2025-2026年扩散对齐最主流的思路演进方向。
你现在是在做文生图、视频生成还是其他模态的偏好对齐?用的是哪个基模型?可以讲讲你的数据集规模和最在意的指标(prompt跟随度?美观?多样性?安全性?),我可以给你更具体的代码/超参/数据集建议。