DeepSeek-R1 归档 - 第3页共18页 - 每时AI

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

2025年5月5日16时作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

Qwen3发布！超DeepSeek R1登顶开源榜，还带来了跟R1不同配方

2025年4月29日11时作者硅星人Pro

阿里巴巴开源新一代通义千问Qwen3系列模型，包含8款不同尺寸。旗舰模型Qwen3 235B采用混合专家（MoE）架构，在多项测评中超越DeepSeek-R1、OpenAI-o1等主流模型。性能提升体现在推理、指令遵循、工具调用、多语言能力等方面。Qwen3全尺寸发布后，社区反响热烈，参数正在“变小”但保持出色表现。

把 DeepSeek-V3-0324 变成推理模型

2025年4月29日8时作者 NLP工程化

基于DeepSeek-R1微调的DeepSeek-R1T-Chimera模型在保持性能的同时显著缩短了思考时间，可作为DeepSeek-R1的加强版使用。

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

2025年4月26日16时作者新智元

奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高

微博账号被AI偷窥？官方回应：只抓取公开内容

2025年4月24日23时作者 AI前哨站

微博‘AI智搜’引发隐私争议，部分用户发布拒绝授权声明反对平台使用其公开及私密内容进行分析。事件涉及爬取边界、用户同意以及法律效力等问题。

142页长文揭秘DeepSeek-R1「思维大脑」！开启全新「思维链学」研究

2025年4月22日16时作者新智元

突破了传统LLM的局限，还开启了全新的研究方向「思维链学」（Thoughtology）。这份长达14

强化学习推理现状 — 理解 GRPO 以及从推理模型论文中获得的新见解

2025年4月20日23时作者 NLP工程化

Sebastian Raschka 分享了关于强化学习推理现状的文章内容，包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等，并探讨了训练推理模型的经验和研究论文。

DeepSeek-R1「内心世界」首次曝光！AI显微镜破解R1大脑，发现神秘推理机制

2025年4月19日11时作者新智元

乱语」甚至「故意撒谎」？Goodfire最新发布的开源稀疏自编码器（SAEs），基于DeepSeek

微软开源DeepSeek-R1魔改版：响应99%敏感提示，风险降50%

2025年4月18日8时作者 AIGC开放社区

今天凌晨，微软开源了MAI-DS-R1魔改版，在保留原有推理性能的基础上进行大幅度增强，响应敏感话题提升2倍至99.3%，安全性降低50%。