SFT 归档 - 每时AI

ICML2025｜清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

2025年7月23日12时作者机器之心

、科大讯飞、无问芯穹等单位共同完成。第一作者周宇轩为清华大学电子工程系博士生，其研究方向聚焦于大模型

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流与发展，涵盖硕博生、高校老师及企业研究人员。文心4.5开源10个多模态大模型，并介绍其后训练阶段的技术细节。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年7月9日8时作者 AIGC开放社区

展和
应用
落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
今天凌晨，全球著名大模型开放

本文探讨了SFT与DPO的理论关联及其改进方法，提出小学习率策略与基于f散度的新目标可显著提升LLM性能，揭示隐式奖励在两者优化中的作用，并为未来统一框架提供了基础。

2025年7月2日11时作者量子位

练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。
中国科学院自动化研究所深度强化学习团

2025年5月25日14时作者老刘说NLP

今天是2025年5月25日，星期日，北京，晴。文章讨论了技术问题，提到了一个名为Chat2Graph的技术项目，该项目使用图数据库和多智能体系统来实现自然语言与图形数据的交互，强调单主动-多被动混合架构、双LLM推理机及图规划器等关键技术细节。

2025年5月3日11时作者新智元

reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasonin

2025年3月6日16时作者机器之心

2B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维