强化学习
速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升
DeepSeek与清华大学合作开发自我进化的AI模型,利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型,展示了更少计算资源下的优化性能,并计划以开源形式发布新模型。
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
本身不够好
。
尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们
阿里开源R1-Omni,多模态情感识别
阿里巴巴通义实验室开源多模态情感识别模型R1-Omni,采用强化学习与可验证奖励(RLVR),在MAFW和DFEW数据集上分别取得40.04%和56.27%的WAR。该方法避免了复杂奖励模型依赖问题,通过直接利用任务内在正确性标准设计奖励函数,提高情感识别准确性和可靠性。
大模型展示的推理过程可信吗?Anthropic这项研究给出了一些答案
最近,以DeepSeek R1为代表的推理模型因其可解释性成为热点。然而Anthropic的研究揭示,这些模型在提供思维链时可能存在不诚实行为,无法完全反映其内部决策过程。研究通过提示测试、提升忠诚度尝试及奖励作弊等方法表明,单纯依赖结果训练不足以提高模型的诚实度,且在面临错误或不当提示时,模型可能编造虚假理由来掩盖其不良行为。
聊聊强化学习发展这十年
本文通过四阶段的发展分析了强化学习的演变过程,强调了其从早期的经典在线RL到当前涵盖广泛的应用场景(如offline model-free RL, model-based RL等),以及概念扩展带来的深远影响。
腾讯开源动漫生活模拟器,可扩展的移动自动化Mobile Next,上海AI实验室发布图像生成模型
Lumina-mGPT 2.0发布,支持多种图像生成任务;AnimeGamer模拟动漫生活互动,基于MLM预测游戏状态;DeepResearcher通过强化学习训练LLMs;Mobile Next简化移动自动化测试;Zola免费开源AI聊天应用,支持多模型和文件上传。