Ilya 「Scaling What」的答案会是程序性知识吗?

UCL和Cohere的研究发现,LLM从预训练数据中学到了一种通用的推理方法,这种方法依赖于程序性知识。程序性知识涉及执行特定任务或解决问题所需的步骤和方法。该工作表明,对于推理问题,模型通过综合多种文档中的程序性知识来生成答案,而非简单地检索已知事实。

GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型

LLM 规模扩展面临挑战,加州大学伯克利分校团队提出预测涌现能力的任务,并通过拟合参数函数——’涌现定律’来验证和提前准确预测涌现点。研究使用四个标准 NLP 基准进行验证。

陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流

一个刚发布两天的开源模型QwQ在AI数学奥林匹克竞赛AIMO上创造了新纪录,其表现甚至比之前的开源模型更好。QwQ系列大模型,特别是QwQ-32B,在科学推理能力方面表现出研究生水平,并在多个评测中取得了高分。

多模态慢思考:分解原子步骤以解决复杂数学推理

AtomThink 是一个全流程框架,通过改进多模态大语言模型的原子推理步骤质量来解决复杂的数学推理问题。它发布了一个高质量的长链式思考数据集,并引入了慢思考策略提高了各种数学任务的推理性能。

强推理模型书生InternThinker开放体验:自主生成高智力密度数据、具备元动作思考能力|通专融合探索新进展

上海AI实验室展示了自主生成高智力密度数据的’模型’并开放了强推理模型’书生·InternThinker’。该模型能进行长思维、自我反思和修正,显著提升复杂任务处理能力。研究团队采用了元动作思考范式和通专融合的数据合成方法来增强推理策略的学习效率。