DeepSeek-R1 解读及技术报告中文版

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化,并结合蒸馏技术实现高效迁移,显著提升了多项任务表现。

一句话让DeepSeek思考停不下来,北大团队:这是针对AI的DDoS攻击

北大团队发现一段提示词可以让大模型陷入无限思考,并且这种现象可以传递和复制。研究显示乱码问题更容易引发模型的“stuck”机制,说明模型有一定程度的防御措施,但面对具有含义的正常文本时仍需加强。

3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?

波士顿动力机器狗Spot通过强化学习提高了3倍速度至18.7千米/小时,超越了小型犬的平均奔跑速度。研究人员发现限制机器人运动速度的主要因素是电池供电能力,并提出增加四脚同时离地的飞行阶段可提高速度和稳定性。