开源世界的“深度思考者”:Qwen3-235B全面解析,实力对标Gemini 2.5 Pro?

Qwen3-Thinking-2507是阿里巴巴发布的开源大语言模型,采用高效混合专家架构,在复杂推理基准上达到SOTA水平,支持超长上下文和强大的Agent工具调用能力,并通过‘思考’模式实现透明的推理过程。

一推理一编程,“AI六小龙”MiniMax、月之暗面同推开源模型

2025年初,’AI六小龙’几乎从舆论场中消失。MiniMax和月之暗面宣布开源新成果,并部署下一步路线。MiniMax-M1在软件工程、上下文处理等任务上表现出色,参数量达4560亿;Kimi-Dev-72B在编程基准测试中表现优异,参数量仅为72B。

迈向推理时代:大型语言模型的长链推理研究综述

MLNLP社区是一个国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流合作。本文综述了长链推理的研究进展及其关键技术特性,并探讨了其在实际中的应用效果和未来研究方向。

微软变脸OpenAI,模型价值之争压不住了?

微软与OpenAI关于基础模型价值的分歧凸显:微软认为预训练模型将商品化并转向应用层落地,而OpenAI则强调模型领先性的重要性及AGI实现的可能性。双方在投资回报、竞争态势和亚马逊影响等方面存在差异,最终反映了大模型与应用之间价值分配问题。