DeepSeek-R1
「R1时刻」降临!港中文MMLab定义文生图新范式,彻底告别“无脑画图”
最近的大语言模型在数学和编程等领域展示了强大的推理能力,通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中,提出了两种不同的层次的思维链(CoT):Semantic-CoT负责设计图像的整体结构,而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT,并引入多个视觉专家模型作为奖励模型来评估生成的图片质量,最终提出了一种新的文生图模型T2I-R1,显著提高了模型生成符合人类期望的结果的能力。
推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降
论文提出SCoT(推测性思维链),通过小型模型快速生成多个解题草稿,大型模型审核并选择最优解或重新编写。这种协作式推理方法能显著提升速度和准确率,同时降低成本、增加灵活性,并且代码开源便于应用。
DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来!
RLMs的最新发展及其复现研究总结,强调监督微调和基于可验证奖励的强化学习方法的重要性,并讨论了数据构建、训练策略和奖励设计的关键要素。
Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方
阿里巴巴开源新一代通义千问Qwen3系列模型,包含8款不同尺寸。旗舰模型Qwen3 235B采用混合专家(MoE)架构,在多项测评中超越DeepSeek-R1、OpenAI-o1等主流模型。性能提升体现在推理、指令遵循、工具调用、多语言能力等方面。Qwen3全尺寸发布后,社区反响热烈,参数正在“变小”但保持出色表现。
把 DeepSeek-V3-0324 变成推理模型
基于DeepSeek-R1微调的DeepSeek-R1T-Chimera模型在保持性能的同时显著缩短了思考时间,可作为DeepSeek-R1的加强版使用。
一篇142页全面复盘DeepSeek R1思考推理技术综述
通过分类体系分析DeepSeek-R1的推理模块及其在不同任务中的表现,揭示了推理链条的结构一致性、反刍行为和长度对性能的影响,并发现存在一个“最佳点”来优化模型性能,同时探讨了长文本处理与人类认知负荷的关系。