阿里 Qwen3:持续开源,SOTA 连连!
文章介绍了阿里推出的Qwen系列模型,包括通用、编码和推理三个方向的模型,并在多个开源榜单上取得第一。这些模型不仅性能优越,而且具有良好的更新频率和社区口碑。
文章介绍了阿里推出的Qwen系列模型,包括通用、编码和推理三个方向的模型,并在多个开源榜单上取得第一。这些模型不仅性能优越,而且具有良好的更新频率和社区口碑。
最近R1变体模型DeepSeek-TNG-R1T2-Chimera冲上热门排行榜Top9,比常规的R1快约20%,在多个基准测试中表现更智能,且与第一代相比更一致,总体表现良好,适合大部分需求。
Mistral发布Magistral-Small-2506小模型,与Qwen3-4B类似大小且推理能力强,适合单卡32G运行,分数略高于Qwen3-4B。
通义千问团队发布推理模型QwQ,参数量32B,在GPQA等数据集上击败o1-mini,并开源。但其回答较长且冗余,后续需改进简洁度。