「R1时刻」降临!港中文MMLab定义文生图新范式,彻底告别“无脑画图”

最近的大语言模型在数学和编程等领域展示了强大的推理能力,通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中,提出了两种不同的层次的思维链(CoT):Semantic-CoT负责设计图像的整体结构,而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT,并引入多个视觉专家模型作为奖励模型来评估生成的图片质量,最终提出了一种新的文生图模型T2I-R1,显著提高了模型生成符合人类期望的结果的能力。

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

香港中文大学等团队提出Flow-GRPO,首个将在线强化学习引入流匹配模型的工作。显著提升图像生成模型在复杂场景理解、文本渲染任务上的性能,将SD3.5 Medium准确率从63%提升至95%,组合式生图能力超越GPT-4。

100万美元图灵奖奖金,强化学习师徒想献给科研自由

新智元报道:80年代,计算机科学家Andrew Barto和Richard Sutton因强化学习研究获得图灵奖。他们认为未来应向多智能体强化学习方向发展,并相信强化学习将在实现通用人工智能中发挥关键作用。两人建议年轻研究人员勇敢追求自己的兴趣,坚持写作。

文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”

港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1,通过双层级CoT推理框架和BiCoT-GRPO强化学习方法实现了高效的图像生成。该模型在多个基准测试中表现出色,并展示了其在理解与生成任务中的有效性。