强化学习归档

无需外部数据！AI自问自答实现推理能力进化

2025年8月8日23时作者量子位

卡内基梅隆大学团队提出SQLM框架，无需外部数据即可自我训练提升推理能力。该框架包含提问者和解答者两个角色，通过强化学习优化生成高质量问题的能力。

2025年8月5日12时作者智东西

级开源图像生成模型，来了！
智东西8月5日报道，今天，阿里开源了Qwen-Image，
通义千问系列

2025年8月4日23时作者机器之心

一种名为3D-R1的新研究提出了一种更通用、更具推理能力的三维视觉语言模型，它在多个3D任务中表现出了显著的性能提升。

2025年8月4日16时作者新智元

Joseph Suarez 通过对强化学习历史的回顾指出，尽管近年来强化学习相关论文数量增加，但领域并未取得持续性的突破。主要原因是学术界的短视行为和过度优化评价体系导致研究进展缓慢。他提倡从头开始构建新的强化学习基础设施，并强调性能工程的重要性。

2025年8月4日16时作者新智元

书超在哥大指出：AGI就在眼前，突破需高质数据、好奇驱动探索与高效算法；Scaling Law依旧有

MLNLP社区是国内外知名的人工智能与自然语言处理社区，旨在促进产学研交流合作。社区欢迎国内外学者、高校老师及研究人员加入技术交流群。

2025年8月3日16时作者量子位

蚂蚁通用人工智能研究中心提出AlignXplore方法，通过强化学习和深度思考从用户行为中归纳偏好，并且这种对人类偏好的洞察可以动态更新。AlignXplore让AI更好地理解并回应用户的个性化需求。

2025年8月2日23时作者机器之心

种梗图「吐槽」：
其实，这几天关于 GPT-5 的传言就没消停。
先是有网友在 macOS Chat