强化学习归档 - 第16页共46页 - 每时AI

「R1时刻」降临！港中文MMLab定义文生图新范式，彻底告别“无脑画图”

2025年5月14日16时作者 PaperWeekly

最近的大语言模型在数学和编程等领域展示了强大的推理能力，通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中，提出了两种不同的层次的思维链（CoT）：Semantic-CoT负责设计图像的整体结构，而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT，并引入多个视觉专家模型作为奖励模型来评估生成的图片质量，最终提出了一种新的文生图模型T2I-R1，显著提高了模型生成符合人类期望的结果的能力。

薪酬大曝光！北美顶尖名校ML博士，5篇顶会一作，offer竟只有35万刀？

2025年5月13日23时作者新智元

新智元报道
编辑：Aeneas
最近，reddit上的一个讨论火了。北美应届毕业的ML博士年薪只有35万刀？他发帖质疑后，各位业内大佬们现身了。

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

2025年5月13日23时作者新智元

《自然》杂志专访OpenAI首席科学家Jakub Pachocki，讨论了推理模型、强化学习对科学和经济的影响。Pachocki强调未来五年内AGI可能带来重大变革，重塑全球经济与创新格局。

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

2025年5月13日23时作者极市干货

香港中文大学等团队提出Flow-GRPO，首个将在线强化学习引入流匹配模型的工作。显著提升图像生成模型在复杂场景理解、文本渲染任务上的性能，将SD3.5 Medium准确率从63%提升至95%，组合式生图能力超越GPT-4。

100万美元图灵奖奖金，强化学习师徒想献给科研自由

2025年5月13日16时作者新智元

新智元报道：80年代，计算机科学家Andrew Barto和Richard Sutton因强化学习研究获得图灵奖。他们认为未来应向多智能体强化学习方向发展，并相信强化学习将在实现通用人工智能中发挥关键作用。两人建议年轻研究人员勇敢追求自己的兴趣，坚持写作。

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

2025年5月13日16时作者量子位

港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1，通过双层级CoT推理框架和BiCoT-GRPO强化学习方法实现了高效的图像生成。该模型在多个基准测试中表现出色，并展示了其在理解与生成任务中的有效性。

文生图也能这样玩？T2I-R1：把R1的推理范式应用到文生图任务！

2025年5月12日23时作者极市干货

港中文MMLab提出T2I-R1，结合语义级和细粒度生成推理的图文生成模型，在多种基准测试中均表现最优。

大模型生成过程可视化开源工具、Zerosearch误读及开源项目中的RAG文档解析问题

2025年5月11日14时作者老刘说NLP

文章介绍了大模型生成过程可视化的几个工具，包括OpenMAV、logitloom和ReasonGraph，并讨论了zerosearch的误读以及开源项目中的RAG文档解析问题。

微软开源新版ph4：媲美DeepSeek-R1，参数暴降48倍

2025年5月10日8时作者 AIGC开放社区

微软开源了三款小参数模型Phi-4 Reasoning、mini版本Phi-4 mini-reasoning和强化学习版本Phi-4 reasoning-plus，算力消耗低，在Windows系统生态中表现突出。