Kimi新模型数学反超DeepSeek!北大校友刘征瀛等领衔
Kimi新模型在定理证明任务上超越了DeepSeek,采用TTRL搜索框架和错误修复机制,通过率显著提高。该模型由Numina组织与Kimi团队联合打造,并计划在未来优化引理的筛选策略。
Kimi新模型在定理证明任务上超越了DeepSeek,采用TTRL搜索框架和错误修复机制,通过率显著提高。该模型由Numina组织与Kimi团队联合打造,并计划在未来优化引理的筛选策略。
清华大学和上海人工智能实验室提出测试时强化学习(TTRL),通过在无标签数据上利用多数投票等方法估计奖励信号来提升大规模语言模型性能。