揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案 下午4时 2025/03/22 作者 机器之心 ek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」?RL 调整中不断增加的输出
研究小组复活1966年全球首个聊天机器人ELIZA 竟然来自MIT教授之手! 下午12时 2025/02/02 作者 机器人大讲堂 2021 年,麻省理工学院的一位名叫迈尔斯·克劳利 (Myles Crowley) 的档案管理员在已