编程问题归档 - 每时AI

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

2025年4月7日23时作者量子位

清华耶鲁团队提出动态推理新模型Z1，能在保持高效推理性能的同时显著减少思考Token消耗。

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

2025年3月11日12时作者机器之心

数据，7B 参数模型能单纯通过强化学习学会玩数独吗？
近日，技术博主 Hrishbh Dalal 的