强化学习归档 - 第5页共46页

Kimi新模型数学反超DeepSeek！北大校友刘征瀛等领衔

2025年7月11日23时作者量子位

Kimi新模型在定理证明任务上超越了DeepSeek，采用TTRL搜索框架和错误修复机制，通过率显著提高。该模型由Numina组织与Kimi团队联合打造，并计划在未来优化引理的筛选策略。

2025年7月11日23时作者 Founder Park

网，而不是像 Transformer 这样的模型架构。」
前 OpenAI 研究员 Kevin Lu

2025年7月10日8时作者 NLP工程化

POLAR提出创新的奖励模型，通过大规模合成语料预训练生成高效策略区分模型，适用于多种场景并显著降低奖励劫持现象。

2025年7月9日16时作者机器之心

对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。
但目前看起

2025年7月8日23时作者量子位

腾讯混元3D模型新增艺术级3D生成模型Hunyuan3D-PolyGen，支持复杂几何模型生成及资产转换。该模型提升了美术师建模效率70%以上，并具备高质量拓扑功能。

2025年7月7日23时作者机器之心

用户对深层次、多步骤信息获取的需求。从医学研究到科技创新，从商业决策到学术探索，许多复杂问题的解决都

2025年7月4日23时作者机器之心

旦
NLP
实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现：
游戏不仅是娱乐工具，