扩散模型对齐:DMPO 让模型更懂人类偏好

扩散模型对齐:DMPO 让模型更懂人类偏好(2026年最新进展总结)

2023年底到2025年,扩散模型(尤其是文生图模型)的对齐(alignment)方向经历了从RLHF → DPO家族的快速迭代。2025年7月出现的一个重要工作就是 DMPO(Divergence Minimization Preference Optimization),它被认为是当前最强/最稳定的扩散模型偏好优化方法之一。

一、扩散模型对齐的演进路线(简要时间线)

时间方法核心思想代表论文 / 缩写主要问题解决 / 局限性
2023早期RL-basedPPO + reward modelDDPO, DPOK, AlignProp等训练不稳定、reward hacking、采样开销大
2023.11Diffusion-DPO把DPO(LLM上的成功方法)迁移到扩散模型Diffusion-DPO (Salesforce)首次把DPO用到扩散,简单有效,但forward KL有mean-seeking倾向
2024-2025DSPO, D-Fusion等score function / 多步优化变体DSPO (ICLR 2025)等更贴合扩散的score matching,但仍基于forward KL
2025.7DMPO反向KL + 显式最小化散度Divergence Minimization PO解决mean-seeking → mode-seeking,更锐利、更贴合高偏好样本

二、为什么普通Diffusion-DPO不够好?(核心痛点)

Diffusion-DPO(以及大多数后续DPO变体)本质上优化的是 forward KL散度

Loss ≈ -log σ(β log(π(y_w|x)/π_ref(y_w|x)) – β log(π(y_l|x)/π_ref(y_l|x)))

这导致模型倾向于“平均”所有高奖励区域(mean-seeking),生成的结果虽然整体不错,但缺少峰值锐度,在人类主观审美(如艺术感、构图冲击力)上经常显得“安全但平庸”。

人类偏好数据往往是多模态、高峰值的:一张图特别戳中某人,其他很多“还行”的图都会被打低分。forward KL 会把概率质量“抹平”,而我们真正想要的是把概率集中在最优模式上。

三、DMPO 的核心创新(2025年最值得关注的点)

DMPO = Divergence Minimization Preference Optimization

核心改动:把优化目标从 forward KL 转向 reverse KL(也叫 I-projection),同时显式最小化两种散度。

数学上,DMPO 试图最小化:

D_{KL}(π{ref} || π) + λ D{f}(π || π_{ref}) (或类似加权形式)

  • reverse KL 是 mode-seeking:会把概率质量尽可能集中在高概率(高偏好)的区域,生成更锐利、更极致的样本。
  • 额外 divergence minimization term 防止模型跑偏太远,维持分布的基本覆盖性。

实际效果(根据 arXiv 2507.07510 和 OpenReview 实验):

  • 在 Pick-a-Pic、HPSv2、ImageReward 等自动指标上,DMPO 经常超越 Diffusion-DPO、DSPO 等基线 3–8%。
  • 人类偏好胜率提升明显,尤其在视觉冲击力、艺术性、细节质量这类主观维度。
  • 训练更稳定,崩坏(mode collapse)概率更低。

四、DMPO vs 其他主流方法的对比(2026年初视角)

方法KL 方向是否mode-seeking锐利度/极致感训练稳定性指标(大致相对提升)代表模型表现
Diffusion-DPOforward中等★★★★☆baselineSDXL-base+
DSPOforward-ish中上★★★★★+2~5%很稳
D-Fusion混合中上★★★★☆+3~6%视觉一致性好
DMPOreverse★★★★★+5~12%当前SOTA级
RL-based依赖采样高(但易崩)★★☆☆☆波动大早期方法

五、实际使用建议(如果你现在要对齐一个扩散模型)

  1. 数据:优先用 Pick-a-Pic v2 / HPD v2 / 自建高质量偏好对(至少几万到几十万对)
  2. 基模型:SDXL、Flux.1-dev、SD3、AuraFlow、Playground v3 等 2025年后主流模型
  3. 首选尝试顺序:
  • 先 Diffusion-DPO(最成熟,代码最多)
  • 再 DSPO(如果想要更贴合score matching)
  • 强烈建议试 DMPO(2025下半年到2026年最有潜力超车的方法)
  1. 超参Tips:
  • β(温度)通常设 0.1~0.5,DMPO 里 reverse KL 可能需要稍高一点
  • 加 safeguard(如 Diffusion-SDPO 2025年底的变体)可进一步提升安全性与质量一致性

DMPO 本质上是“用 reverse KL 把概率质量更狠地压到人类最喜欢的那些尖峰模式上”,这正是2025-2026年扩散对齐最主流的思路演进方向。

你现在是在做文生图、视频生成还是其他模态的偏好对齐?用的是哪个基模型?可以讲讲你的数据集规模和最在意的指标(prompt跟随度?美观?多样性?安全性?),我可以给你更具体的代码/超参/数据集建议。

文章已创建 4791

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部