DeepSeek-R1
Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方
阿里巴巴开源新一代通义千问Qwen3系列模型,包含8款不同尺寸。旗舰模型Qwen3 235B采用混合专家(MoE)架构,在多项测评中超越DeepSeek-R1、OpenAI-o1等主流模型。性能提升体现在推理、指令遵循、工具调用、多语言能力等方面。Qwen3全尺寸发布后,社区反响热烈,参数正在“变小”但保持出色表现。
把 DeepSeek-V3-0324 变成推理模型
基于DeepSeek-R1微调的DeepSeek-R1T-Chimera模型在保持性能的同时显著缩短了思考时间,可作为DeepSeek-R1的加强版使用。
一篇142页全面复盘DeepSeek R1思考推理技术综述
通过分类体系分析DeepSeek-R1的推理模块及其在不同任务中的表现,揭示了推理链条的结构一致性、反刍行为和长度对性能的影响,并发现存在一个“最佳点”来优化模型性能,同时探讨了长文本处理与人类认知负荷的关系。
强化学习推理现状 — 理解 GRPO 以及从推理模型论文中获得的新见解
Sebastian Raschka 分享了关于强化学习推理现状的文章内容,包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等,并探讨了训练推理模型的经验和研究论文。
微软开源DeepSeek-R1魔改版:响应99%敏感提示,风险降50%
今天凌晨,微软开源了MAI-DS-R1魔改版,在保留原有推理性能的基础上进行大幅度增强,响应敏感话题提升2倍至99.3%,安全性降低50%。