DeepScaleR-1.5B 归档 - 每时AI

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

2025年3月13日12时作者机器之心

高推理能力的潜力，比如 OpenAI 的 o1 系列。
通常来说，这些方法在训练模型时可以产生比典型