大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱 2025年7月8日8时 作者 量子位 CMU研究发现,仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上,预示着强化学习可能是实现可迁移推理的关键方法。