把 DeepSeek-V3-0324 变成推理模型
基于DeepSeek-R1微调的DeepSeek-R1T-Chimera模型在保持性能的同时显著缩短了思考时间,可作为DeepSeek-R1的加强版使用。
基于DeepSeek-R1微调的DeepSeek-R1T-Chimera模型在保持性能的同时显著缩短了思考时间,可作为DeepSeek-R1的加强版使用。
DeepSeek R2参数量高达1.2万亿,采用Hybrid MoE 3.0架构,在保持模型能力的同时实现了计算资源的极致压缩,并引入了专门针对法律文书分析的新模块。其多模态精度达到92.4%,误报率低,部署优势明显,支持国产芯片优化,预计未来将减少对西方依赖。
FastMCP 是一个专门为开发 MCP 服务器和客户端设计的开源 Python 框架。它简化了 MCP 工具开发、加速了服务器搭建,并支持多种 LLM 客户端,只需几行代码即可构建 MCP 服务器或客户端。
Docker 推出了 MCP(模型上下文协议)目录和 MCP Toolkit,用于管理第三方工具。MCP 目录包含来自多个供应商的 100 多台服务器,并计划支持企业自定义 MCP 服务器。
型 Qwen3。
Qwen3 采用混合专家(MoE)架构,总参数量 235B,激活仅需 22B。其中
来自清华大学、中国科学院大学、华南理工大学、东北大学的联合研究团队提出了一种全新的适应式RAG方法——DeepNote。它首次引入“笔记”作为知识载体,实现更深入、更稳定的知识探索与整合,在所有任务上均优于主流RAG方法,性能提升高达+20.1%。
阿里云开源Qwen3系列模型,包含8种规格支持119种语言。旗舰模型在编程、数学等方面表现优于多家知名模型。Qwen3系列引入混合思考模式,支持MCP协议和119种语言,已上线多个平台。