长上下文理解归档

Qwen3小升级即SOTA，开源大模型王座快变中国内部赛了

2025年7月22日16时作者量子位

Qwen官方发布了235B参数量的新模型Qwen3，相比Kimi K2提升了基准测试性能，并且不再使用混合思维模式。新模型支持非思考模式，已可以上线网页版使用。

2025年6月17日23时作者头部科技

准测试开放平台
lmarena.ai发布的最新消息，DeepSeek-R1-0528在WebDev

2025年6月6日16时作者 PaperWeekly

近期研究表明，线性序列建模（如 Lightning Attention、Mamba2）与混合专家模型架构（MoE）的结合在高效大模型领域引起了广泛关注。上海人工智能实验室团队的最新研究首次系统地实现了这两种技术的结合，并开源了完整的技术框架。

2025年3月17日23时作者机器之心

桐郑子隆王希元张牧涵
长文本任务是当下大模型研究的重点之一。在实际场景和应用中，普遍存在大量长

2025年1月22日16时作者机器之心

谷歌发布Gemini 2.0 Flash Thinking新版本，引入1M长上下文窗口，在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程，展示了模型在多个领域的强大能力。

2025年1月15日16时作者量子位

开源模型上下文窗口扩展至400万token。MiniMax-Text-01及MiniMax-VL-01分别展示了强大的长文本处理能力和多模态识别能力，参数量大、上下文支持能力强。