新SoTA方法RM-R1:让reward model对评分说出原因!超越GPT4o
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。近期发表论文提出推理奖励模型ReasRM,通过两阶段训练让小模型学会写评语,并在综合、数学题等测试集中优于GPT-4。该模型支持任务分类和动态奖励机制,已在多个领域展示优势。
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。近期发表论文提出推理奖励模型ReasRM,通过两阶段训练让小模型学会写评语,并在综合、数学题等测试集中优于GPT-4。该模型支持任务分类和动态奖励机制,已在多个领域展示优势。
CCL 2025会议延期至8月11-14日在山东济南举行,涵盖计算语言学多领域研究与应用论文征集。新增ARR快速审稿流程,促进学术交流。
日本铁路公司JR东日本计划2026年推出「失物招领云 find」系统,通过智能识别、信息整合和多语言支持等措施提升效率,解决传统失物招领流程中的痛点。
全流程AI驱动创作工具介绍,支持电影混剪、鬼畜视频生成等6大功能,涵盖电影级智能混剪、爆款鬼畜视频生成、AI音乐视频创作等多个场景,提供多种模型供用户下载使用。
第23期AI产品榜·网站榜(Web)发布。全球AI网站TOP100中仅35%增长,增速最快的是lovable.dev。夸克、豆包等国产品牌位列全球前10应用榜单前列。GenSpark和百度橙篇分别登顶增速榜及出海总榜,扣子空间在本土增速榜排名第一。传统搜索引擎流量下降,用户转向AI工具获取信息。
文章介绍了五种创新技术与工具,包括ZeroSearch、DeerFlow、News Agents、n8n Autoscaling System和SmartPDF。它们专注于提升LLM的搜索能力、自动化研究流程、智能新闻聚合与摘要、工作流自动扩容以及利用AI快速总结PDF内容等方向。