长度控制策略优化归档 - 每时AI

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

2025年3月9日23时作者新智元

1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任