课程式强化学习微调归档 - 每时AI

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

2025年4月14日16时作者机器之心

化学习）、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
近年来，随着大型语言模型（L