学术
RL很重要,但远非All You Need!微软副总裁:AI不靠单个技术撑起
微软副总裁 Nando de Freitas 提出 AI 是一场系统性工程的观点,反对单一技术的过度宣传。他认为AI的进步需要成千上万人的共同努力,并强调了多元参与和技术探索的重要性。
当国民饮品遇上视觉智能:一场覆盖24个工厂的安全革命正在上演
今麦郎与极视角合作打造AI智能化平台,成功实现全国24个生产基地的安全生产智能化管理。通过智慧安防AI管理系统,今麦郎提高了预警响应速度,并实现了跨区域工厂的安全联动监控,显著提升了生产安全管理水平。
用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析
本文介绍了一篇关于任务向量在模型编辑中的有效性和可靠性的论文,并提出了理论分析框架,该研究解决了任务向量方法的应用局限性。
Agentic 是个谎言,本质还是经典RL
本文深入探讨了Agentic概念,指出其实质仍是经典强化学习(RL)。通过分析字节跳动的VeRL框架和相关实践案例,强调构建高质量、高效能的环境对于推进大模型RL训练的重要性。
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换
本文介绍了一种新的强化学习框架Search-R1,用于训练大语言模型以更有效地利用搜索引擎。通过引入可交互的搜索引擎模块,模型能够在生成答案时随时发起搜索请求,从而提升推理质量。
Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限
了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
著名 AI 研究者和博主 Se