然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),我们是否也可以借鉴 CoT 相关的策略,来提升图片或视频的质量和文本一致性呢?
来自香港中文大学、北京大学、和上海 AI Lab 的研究者们通过 Verify 和 Reinforce 的方案,系统地探索了“CoT 推理+文生图”的结合与潜力。研究结果表明,这些方法能够有效提升自回归(Autoregressive)图像生成的质量。
作者也提出了两种专门针对该任务的新型奖励模型——潜力评估奖励模型(Potential Assessment Reward Model, PARM) 及其增强版本 PARM++,后者引入了反思机制(Reflection Mechanism),进一步优化了图像生成质量。
论文链接:
代码链接:
研究背景与挑战
CoT如何应用于图像生成?
考虑到 Autoregressive 图像生成和 LLM 在数据表征和推理架构的相似性,论文调研了包括使用 ORM 和 PRM 的 Test-time Verification、构造 Preference Ranking Data、和通过 DPO 进行偏好对齐等方案,首次证明了“CoT+文生图”的可行性!
具体方案
3.1 测试时验证(Test-time Verification)
首先,论文探索如何使用奖励模型(Reward Model, RM) 来进行 Test-time Verification,实现了 Outcome Reward Model(ORM,下图左边部分)和 Process Reward Model(PRM,下图中间部分)方案,并在两者的基础上提出了一种全新的针对于图像生成任务的 Potential Assessment Reward Model(PARM,下图右边部分)。
3.1.1 结果奖励模型(Outcome Reward Model, ORM)
论文提出了 2 种方案,均使用 Best-of-N 的方式进行验证,即进行多次完整路径的生成,并从中选择出质量最高的最终图片。
3.1.2 过程奖励模型(Process Reward Model, PRM)
3.1.3 潜力评估奖励模型(Potential Assessment Reward Model, PARM)
3. 最佳选择(Best-of-N’ Selection):在高潜力路径中选择最佳的最终图像。
3.1.4 潜力评估奖励模型++(Potential Assessment Reward Model++,PARM++)
3.2 直接偏好优化(Direct Preference Optimization, DPO)Alignment
3.3 Test-time Verification + DPO Alignment
实验结果表明,结合 DPO 和 Test-time Verification 后,模型在 GenEval 指标上的整体提升达 +27%,超越单独使用 DPO 或 Test-time Verification 的方案。
总体效果对比
4.1 推理准确性表现
下表展示了模型在 GenEval 基准上的总体性能比较,相比于现有的扩散模型和自回归模型,结果证明了在文本生成图像任务中使用 CoT 推理策略的潜力。
结论
本研究首次系统性探索了 CoT 推理策略在自回归图像生成中的适应性及潜力。通过全面的实验分析证明了不同的推理策略(如测试时验证、偏好对齐及其结合)能够有效提升图像生成质量。
(文:PaperWeekly)