ACL2025 解谜训练=推理良药?达摩院提出FineReason,教AI学会“三思而后行”
MLNLP社区推出FineReason基准,评估大模型的审慎推理能力。通过逻辑谜题训练,提升模型在数学和通用推理任务上的表现,并揭示其反思与纠错能力的瓶颈。
MLNLP社区推出FineReason基准,评估大模型的审慎推理能力。通过逻辑谜题训练,提升模型在数学和通用推理任务上的表现,并揭示其反思与纠错能力的瓶颈。
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流与进步。近日,论文提出一种无需训练、在线推理中即可部署的轻量干预机制’ONLY’,显著降低大型视觉-语言模型生成幻觉的能力。
MLNLP社区致力于推动国内外机器学习与自然语言处理领域的学术交流和技术发展。本文提出AI4Research综述工作,涵盖五个方面:科学理解、学术综述、科学发现、学术写作和学术评审。系统性分类方法及新兴研究方向识别,关键应用与丰富资源总结。
本文探讨了SFT与DPO的理论关联及其改进方法,提出小学习率策略与基于f散度的新目标可显著提升LLM性能,揭示隐式奖励在两者优化中的作用,并为未来统一框架提供了基础。
MLNLP社区举办学术Talk活动,邀请香港大学孙秋实分享计算机智能体进展,涵盖基础模型设计、高质量数据合成与利用等技术领域。
业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进