Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
Qwen官方发布了235B参数量的新模型Qwen3,相比Kimi K2提升了基准测试性能,并且不再使用混合思维模式。新模型支持非思考模式,已可以上线网页版使用。
Qwen官方发布了235B参数量的新模型Qwen3,相比Kimi K2提升了基准测试性能,并且不再使用混合思维模式。新模型支持非思考模式,已可以上线网页版使用。
近期研究表明,线性序列建模(如 Lightning Attention、Mamba2)与混合专家模型架构(MoE)的结合在高效大模型领域引起了广泛关注。上海人工智能实验室团队的最新研究首次系统地实现了这两种技术的结合,并开源了完整的技术框架。
谷歌发布Gemini 2.0 Flash Thinking新版本,引入1M长上下文窗口,在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程,展示了模型在多个领域的强大能力。
开源模型上下文窗口扩展至400万token。MiniMax-Text-01及MiniMax-VL-01分别展示了强大的长文本处理能力和多模态识别能力,参数量大、上下文支持能力强。