清华耶鲁推理模型新范式:动态推理实现高效测试时扩展,大大节省Token消耗 下午11时 2025/04/07 作者 量子位 清华耶鲁团队提出动态推理新模型Z1,能在保持高效推理性能的同时显著减少思考Token消耗。
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独 下午12时 2025/03/11 作者 机器之心 数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的