大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
腾讯&苏州大学团队提出新框架RLVR,使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集,并指出未使用思维链推理方法仍需深入研究。
腾讯&苏州大学团队提出新框架RLVR,使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集,并指出未使用思维链推理方法仍需深入研究。
ATEC2025科技精英赛由香港中文大学等主办,聚焦AI与机器人技术。设置软件算法和硬件设计双赛道,提供高达21万美元奖金,并邀请顶尖学者和技术领袖进行交流。报名截至4月25日,详情见www.ATECup.com。
DeepMind内部研究发布设限,因担心被竞争对手利用或让Gemini模型逊色。谷歌推行更严格的审查机制,生成式AI相关论文设定6个月禁发期。此举引发研究人员对学术自由的担忧。
清华大学等团队提出4D LangSplat方法,结合多模态大模型和状态变化网络,成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。
这篇综述全面梳理了MCoT的理论框架、技术方法及应用前景,为多模态AI研究提供了系统性参考。从传统的链式思维到MCoT,支持多模态数据的自由组合与协同推理,在医学诊断等领域展现出巨大潜力。