新SoTA方法RM-R1:让reward model对评分说出原因!超越GPT4o

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。近期发表论文提出推理奖励模型ReasRM,通过两阶段训练让小模型学会写评语,并在综合、数学题等测试集中优于GPT-4。该模型支持任务分类和动态奖励机制,已在多个领域展示优势。

【倒计时3天,截止时间5月11日】第二十四届中国计算语言学大会(CCL 2025) 征稿启事

CCL 2025会议延期至8月11-14日在山东济南举行,涵盖计算语言学多领域研究与应用论文征集。新增ARR快速审稿流程,促进学术交流。

Google跌,95%的AI搜索流量跌,ChatGPT涨6亿,对话即搜索|AI产品榜

第23期AI产品榜·网站榜(Web)发布。全球AI网站TOP100中仅35%增长,增速最快的是lovable.dev。夸克、豆包等国产品牌位列全球前10应用榜单前列。GenSpark和百度橙篇分别登顶增速榜及出海总榜,扣子空间在本土增速榜排名第一。传统搜索引擎流量下降,用户转向AI工具获取信息。

阿里巴巴开源大模型搜索引擎ZeroSearch,开源社区的深度研究框架DeerFlow

文章介绍了五种创新技术与工具,包括ZeroSearch、DeerFlow、News Agents、n8n Autoscaling System和SmartPDF。它们专注于提升LLM的搜索能力、自动化研究流程、智能新闻聚合与摘要、工作流自动扩容以及利用AI快速总结PDF内容等方向。