最强开源模型!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用
阿里巴巴发布Qwen3系列模型,包括两个专家混合(MoE)模型和六个Dense模型,并开源了部分权重。该系列在多个基准测试中表现出与OpenAI等顶级模型相当的性能。Qwen3还具有高效的“思考模式”,支持119种语言且训练数据量是Qwen2.5的两倍,有助于Agent调用。部署成本显著降低,整体推理成本也有所节省。
阿里巴巴发布Qwen3系列模型,包括两个专家混合(MoE)模型和六个Dense模型,并开源了部分权重。该系列在多个基准测试中表现出与OpenAI等顶级模型相当的性能。Qwen3还具有高效的“思考模式”,支持119种语言且训练数据量是Qwen2.5的两倍,有助于Agent调用。部署成本显著降低,整体推理成本也有所节省。
Skywork-OR1发布,7B参数量模型在AIME数学竞赛中得分69.8,性能媲美671B DeepSeek-R1,开源模型、数据和代码助力研究。
阿里开源QwQ-32B模型,性能媲美DeepSeek R1,在推理和代码能力上表现突出。该模型在本地部署和云服务上的成本效益显著,使得更多开发者能够使用高级性能的大模型。
阿里自研Qwen2.5-Max在Chatbot Arena大模型竞技场中表现优异,总分1332位列第七。尤其在编程、数学方面突出,综合排名第三,超越谷歌Gemini家族和Llama 3.1等模型。
OpenAI发布新一代推理模型o3-mini,首次向免费用户提供新模型,并提供高算力版本o3-mini-high。其性能超越了o1,在STEM领域具有优势。
Kimi发布新一代多模态思考模型k1.5,其在数学、代码、视觉和通用能力测试中达到或超越了GPT-4等领先水平。训练过程包括预训练、监督微调以及强化学习三个阶段,重点展示了数据构建、长上下文扩展及策略优化技术。
国产模型DeepSeek V3在竞技场中表现优异,但在部分逻辑陷阱问题上略逊一筹。量子位进行了实测对比,发现Claude 3.5 Sonnet在理解某些脑筋急转弯和弱智吧问题上更为精准。