强化学习归档 - 第23页共46页

ChatGPT 全局记忆上线，xAI 开放 Grok 3 API，Llama 4 惹争议！ AI Weekly 4.7-13

2025年4月13日14时作者 AI信息Gap

户推出全局记忆功能，模型可自动调用历史对话，增强个性化体验。
2️⃣
🚫 GPT-4 即将退役
：4

MLNLP社区是国内外知名的语言模型与自然语言处理社区。该文章探讨了大模型推理能力评估中的「玄学因素」，并提出建议以避免此类问题。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年4月13日11时作者机器之心

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性，同时使用强化学习提升LLM性能。然而，当前强化学习算法仍有改进空间，奖励稀疏性是主要难点之一。

2025年4月12日8时作者 NLP工程化

字节跳动发布Seed-Thinking-v1.5技术细节报告，其性能接近Gemini-2.5-Pro和O3-mini-high水平。

2025年4月12日8时作者极市干货

文章回顾了强化学习过去十年的发展历程，从经典定义到多子领域扩展，并探讨了未来可能的发展趋势和与其他机器学习分支的关系。

2025年4月10日14时作者老刘说NLP

度依赖开源，开源大多数只能赶凑合，能快速上线，但是带来的风险是会黑盒化，不可控。我们如果要开发自己的

2025年4月9日16时作者 PaperWeekly

港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1，该模型通过引入时序建模和混合训练机制，在权威测试中击败了GPT-4o。

2025年4月9日8时作者 NLP工程化

DeepRetrieval 是一种基于强化学习的query优化系统，通过训练LLM优化原始查询以提升现有搜索系统的检索效果。

2025年4月8日23时作者 Z Potentials

DeepSeek与清华大学合作开发自我进化的AI模型，利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型，展示了更少计算资源下的优化性能，并计划以开源形式发布新模型。