复杂推理归档 - 每时AI

Mamba架构实现推理性能超Gemma3-27B！推理模型开始迈入「无注意力」时代

2025年7月4日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

ACL 2025｜为什么你设计的 Prompt 会成功？新理论揭示大模型 Prompt 设计的奥秘与效能

2025年6月16日23时作者机器之心

r Science；曹峻泰是英属哥伦比亚大学研究生，主要研究兴趣集中在大模型推理和可解释性研究；本文

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

2025年5月5日16时作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

模仿or探索？LUFFY：我全都要！巧妙融合外部指导，RL推理不再死板

2025年4月29日16时作者 PaperWeekly

仿学习只学不练、强化学习只练不学”的传统壁垒。
论文标题：
Learning to Reason u

自动学会工具解题，RL扩展催化奥数能力激增17%

2025年4月1日23时作者机器之心

用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。