模型崩溃自救指南:5行代码实现TTA鲁棒性飞跃,天大×腾讯开源COME方案

文章介绍了测试时适应(TTA)方法中的熵最小化(EM),并指出其存在的过度自信和模型崩溃问题。COME通过显式不确定性建模和自适应熵优化解决了这些问题,显著提升了模型在各种复杂场景下的预测能力。

新SoTA方法RM-R1:让reward model对评分说出原因!超越GPT4o

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。近期发表论文提出推理奖励模型ReasRM,通过两阶段训练让小模型学会写评语,并在综合、数学题等测试集中优于GPT-4。该模型支持任务分类和动态奖励机制,已在多个领域展示优势。

【倒计时3天,截止时间5月11日】第二十四届中国计算语言学大会(CCL 2025) 征稿启事

CCL 2025会议延期至8月11-14日在山东济南举行,涵盖计算语言学多领域研究与应用论文征集。新增ARR快速审稿流程,促进学术交流。

文生图进入R1时刻:港中文MMLab发布T2I-R1

姜东志博士提出了一种新型的文本生成图像模型T2I-R1,融合了语义层面和细粒度令牌层面的协同推理策略。该模型通过强化学习方法统一了这两个层次的推理解析过程,并使用集成视觉专家模型作为奖励机制来评估生成图片的质量,显著提高了图像生成的效果。