不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab提出的新方法OREAL利用基于结果奖励的强化学习超越了DeepSeek,无需超大规模模型蒸馏。通过模仿正样本、偏好负样本并关注关键步骤,实现了数学推理任务上的显著提升,并开源训练数据和模型以促进研究对比。
上海AI Lab提出的新方法OREAL利用基于结果奖励的强化学习超越了DeepSeek,无需超大规模模型蒸馏。通过模仿正样本、偏好负样本并关注关键步骤,实现了数学推理任务上的显著提升,并开源训练数据和模型以促进研究对比。
微信正式接入DeepSeek-R1,并支持满血版AI搜索。用户可通过微信搜索获取答案,生成结果带有社交属性可分享给朋友或朋友圈。此次接入不仅满足了用户的即时需求,还展示了微信与大模型R1的深度融合。
Meta研究人员通过结合AI模型Brain2Qwerty和非侵入性脑电图(EEG)或脑磁图(MEG),实现了当前最准确的大脑打字技术,字符错误率分别达到32%和67%,展示了脑机接口在语言生成方面的进展。
本周通讯解读了三个值得关注的技术与行业动态。DeepSeek-R1 在强化学习中采用GRPO替代PPO,减少人类标注数据并设计精妙奖励机制;ARK展望AI对经济的影响;Kimi 1.5和DeepSeek-R1均使用Rule-based Reward提升模型推理能力。
微信灰度测试接入DeepSeek R1的AI搜索功能,用户可点开顶部搜索框尝试新的AI搜索体验。功能采用公众号推文 + 网页搜索策略,但存在精准度问题,目前仍在灰度测试阶段。
EMO2 是阿里巴巴通义实验室提出的一个音频驱动人像 AI 视频生成的升级版本,通过一张人物肖像图片和任意长度音频生成流畅自然的手部动作、面部表情及身体姿态。
CoCoMix 是一种预训练框架,结合连续概念与稀疏自编码器学习的语义概念,通过交叉熵损失预测选定的概念,并将其混合到模型隐藏状态中,显著提升大型语言模型性能。