大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

腾讯&苏州大学团队提出新框架RLVR,使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集,并指出未使用思维链推理方法仍需深入研究。

ICLR’25 惊现[10,10,10,10]满分论文,ControlNet 一作张吕敏新作,Github 5.8k 颗星

IC-Light 是张吕敏提出的 IC-Light 项目,能够通过文本或背景图片引导改变照片的光影效果。该论文在 ICLR 大会上获得满分评级。作者张吕敏毕业于苏州大学,并在斯坦福读博,发表了多篇 AI 绘画相关论文。