告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

该项目由北京邮电大学白婷副教授指导,旨在解决大语言模型在长期对话中记忆断裂的问题。MemoryOS 是首个结合操作系统原理与人脑分层机制的大模型记忆管理系统,显著提升了AI的上下文连贯性和个性化记忆能力。

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

本文研究了语言模型对强化学习中奖励噪声的鲁棒性,即使翻转大部分奖励也能保持高下游任务表现。作者提出了思考模式奖励机制,并展示了其在数学和AI帮助性回复生成任务中的有效性。

挑战 next token prediction,Diffusion LLM 够格吗?

本周解读了Diffusion LLM和AI推理成本相关话题。Gemini Diffusion因其扩散架构被社区热议,其生成效率高且并行高效机制让其有潜力成为自回归模型的新挑战者;同时,AI开发者们也关注到基于扩散模型的NLP任务潜力及其与传统建模方式的关系。

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。