特定问题归档 - 每时AI

6大基准全面碾压！TW-GRPO刷新视频推理天花板，CLEVRER准确率突破50.4%！

2025年7月6日16时作者机器人大讲堂

板。而
强化学习（
RL）作为推动这场技术革命的关键引擎，为大语言模型注入了强大的推理能力。
Dee

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

2025年3月22日16时作者机器之心

ek-V3-Base 在强化学习（RL）调优之前就已经展现出「顿悟时刻」？RL 调整中不断增加的输出

研究小组复活1966年全球首个聊天机器人ELIZA 竟然来自MIT教授之手！

2025年2月2日12时作者机器人大讲堂

2021 年，麻省理工学院的一位名叫迈尔斯·克劳利 (Myles Crowley) 的档案管理员在已