大型语言模型的“推理升级”:自适应策略让AI更聪明
MLNLP社区发布了一篇关于提升大型语言模型复杂推理能力的研究论文《MixtureofReasoning》。文章提出一种新的训练框架MoR,使模型能够自主选择和应用多种推理策略,显著提升了模型在多个数据集上的表现。
MLNLP社区发布了一篇关于提升大型语言模型复杂推理能力的研究论文《MixtureofReasoning》。文章提出一种新的训练框架MoR,使模型能够自主选择和应用多种推理策略,显著提升了模型在多个数据集上的表现。
腾讯混元开源首个混合推理MoE模型Hunyuan-A13B,参数80亿,激活参数13亿,在多个基准测试中超越OpenAI等模型,支持数学、推理和Agent调用能力。
Qwen3今日发布,参数量2350亿的旗舰模型Qwen3-235B-A22B超越多个模型。亮点包括混合思维模式、多语言支持和增强代理能力;预训练数据集涵盖119种语言,计算成本更低;链接见原文。
Qwen3 是全球最强开源模型。它在代码、数学、通用能力等基准测试中超越了 DeepSeek-R1 等顶级模型,并且仅需4张H20就能实现本地部署,成本仅为DeepSeek-R1的35%。
Anthropic公司发布了Claude 3.7 Sonnet和Claude Code两个模型,前者具备混合推理能力,后者则是一个面向开发者的智能编码助手。Claude 3.7 Sonnet在编码和前端网页开发方面表现出强大的性能,并能更好地处理复杂的代码库。Claude Code作为命令行工具,简化了开发者的工作流程,能够进行多种编码任务,如编写测试、提交代码等,显著减少了开发时间和工作量。
清华大学开源框架KTransformers研究显示,仅需14GB GPU和382GB DRAM即可本地运行671B参数的DeepSeek-R1模型,并实现约13.69 tokens/s的推理速度。