扩散模型对齐：DMPO 让模型更懂人类偏好

扩散模型对齐：DMPO 让模型更懂人类偏好（2026年最新进展总结）

2023年底到2025年，扩散模型（尤其是文生图模型）的对齐（alignment）方向经历了从RLHF → DPO家族的快速迭代。2025年7月出现的一个重要工作就是 DMPO（Divergence Minimization Preference Optimization），它被认为是当前最强/最稳定的扩散模型偏好优化方法之一。

一、扩散模型对齐的演进路线（简要时间线）

时间	方法	核心思想	代表论文 / 缩写	主要问题解决 / 局限性
2023早期	RL-based	PPO + reward model	DDPO, DPOK, AlignProp等	训练不稳定、reward hacking、采样开销大
2023.11	Diffusion-DPO	把DPO（LLM上的成功方法）迁移到扩散模型	Diffusion-DPO (Salesforce)	首次把DPO用到扩散，简单有效，但forward KL有mean-seeking倾向
2024-2025	DSPO, D-Fusion等	score function / 多步优化变体	DSPO (ICLR 2025)等	更贴合扩散的score matching，但仍基于forward KL
2025.7	DMPO	反向KL + 显式最小化散度	Divergence Minimization PO	解决mean-seeking → mode-seeking，更锐利、更贴合高偏好样本

二、为什么普通Diffusion-DPO不够好？（核心痛点）

Diffusion-DPO（以及大多数后续DPO变体）本质上优化的是 forward KL散度：

Loss ≈ -log σ(β log(π(y_w|x)/π_ref(y_w|x)) – β log(π(y_l|x)/π_ref(y_l|x)))

这导致模型倾向于“平均”所有高奖励区域（mean-seeking），生成的结果虽然整体不错，但缺少峰值锐度，在人类主观审美（如艺术感、构图冲击力）上经常显得“安全但平庸”。

人类偏好数据往往是多模态、高峰值的：一张图特别戳中某人，其他很多“还行”的图都会被打低分。forward KL 会把概率质量“抹平”，而我们真正想要的是把概率集中在最优模式上。

三、DMPO 的核心创新（2025年最值得关注的点）

DMPO = Divergence Minimization Preference Optimization

核心改动：把优化目标从 forward KL 转向 reverse KL（也叫 I-projection），同时显式最小化两种散度。

数学上，DMPO 试图最小化：

D_{KL}(π{ref} || π) + λ D{f}(π || π_{ref}) （或类似加权形式）

reverse KL 是 mode-seeking：会把概率质量尽可能集中在高概率（高偏好）的区域，生成更锐利、更极致的样本。
额外 divergence minimization term 防止模型跑偏太远，维持分布的基本覆盖性。

实际效果（根据 arXiv 2507.07510 和 OpenReview 实验）：

在 Pick-a-Pic、HPSv2、ImageReward 等自动指标上，DMPO 经常超越 Diffusion-DPO、DSPO 等基线 3–8%。
人类偏好胜率提升明显，尤其在视觉冲击力、艺术性、细节质量这类主观维度。
训练更稳定，崩坏（mode collapse）概率更低。

四、DMPO vs 其他主流方法的对比（2026年初视角）

方法	KL 方向	是否mode-seeking	锐利度/极致感	训练稳定性	指标（大致相对提升）	代表模型表现
Diffusion-DPO	forward	✗	中等	★★★★☆	baseline	SDXL-base+
DSPO	forward-ish	△	中上	★★★★★	+2~5%	很稳
D-Fusion	混合	△	中上	★★★★☆	+3~6%	视觉一致性好
DMPO	reverse	✓	高	★★★★★	+5~12%	当前SOTA级
RL-based	–	依赖采样	高（但易崩）	★★☆☆☆	波动大	早期方法

五、实际使用建议（如果你现在要对齐一个扩散模型）

数据：优先用 Pick-a-Pic v2 / HPD v2 / 自建高质量偏好对（至少几万到几十万对）
基模型：SDXL、Flux.1-dev、SD3、AuraFlow、Playground v3 等 2025年后主流模型
首选尝试顺序：

先 Diffusion-DPO（最成熟，代码最多）
再 DSPO（如果想要更贴合score matching）
强烈建议试 DMPO（2025下半年到2026年最有潜力超车的方法）

超参Tips：

β（温度）通常设 0.1~0.5，DMPO 里 reverse KL 可能需要稍高一点
加 safeguard（如 Diffusion-SDPO 2025年底的变体）可进一步提升安全性与质量一致性

DMPO 本质上是“用 reverse KL 把概率质量更狠地压到人类最喜欢的那些尖峰模式上”，这正是2025-2026年扩散对齐最主流的思路演进方向。

你现在是在做文生图、视频生成还是其他模态的偏好对齐？用的是哪个基模型？可以讲讲你的数据集规模和最在意的指标（prompt跟随度？美观？多样性？安全性？），我可以给你更具体的代码/超参/数据集建议。

一、扩散模型对齐的演进路线（简要时间线）

二、为什么普通Diffusion-DPO不够好？（核心痛点）

三、DMPO 的核心创新（2025年最值得关注的点）

四、DMPO vs 其他主流方法的对比（2026年初视角）

五、实际使用建议（如果你现在要对齐一个扩散模型）

likuolei

发表回复取消回复

2026 年 5 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

一、扩散模型对齐的演进路线（简要时间线）

二、为什么普通Diffusion-DPO不够好？（核心痛点）

三、DMPO 的核心创新（2025年最值得关注的点）

四、DMPO vs 其他主流方法的对比（2026年初视角）

五、实际使用建议（如果你现在要对齐一个扩散模型）

likuolei

发表回复 取消回复

相关文章

发表回复取消回复