DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密
新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。
新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。
新加坡国立大学华人团队提出InterFeedback框架,评估大规模多模态模型在人类反馈下的表现,结果显示最先进的LMM通过人类反馈纠正结果的比例不到50%。
ChatGPT 新功能Operator即将上线,可自动完成餐厅预订等任务;同时国内多家科技公司加速布局AGI研究。
颜水成再次回到新加坡国立大学担任计算机系特聘教授,专注于e-AGI研究。他曾在昆仑万维和依图科技等产业界任职,并在NUS拥有丰富的学术经验。目前,他在NUS带领实验室,致力于网络结构的研究,并且希望推动AGI的发展。
薛复昭博士分享了他在学术生涯中的七点心得,包括工程能力的重要性、与优秀人才合作、专注于重要论文、研究趋势的演变、换位思考以及博士学位的价值。他指出,虽然攻读博士学位有助于科研技能的学习,但不是从事大语言模型研究的必要条件。
新加坡国立大学团队测试发现,AI系统Claude可以在多个场景下自动完成任务,包括玩手游、购物下单、办公自动化等。Claude不仅能操作GUI界面,还能理解游戏规则并调整策略,展示了其在多种任务中的强大能力。论文还提出了一种开箱即用的自动GUI框架。