强化学习
Search-R1:高效、可扩展的强化学习训练框架
高效、可扩展的强化学习训练框架Search-R1,支持3B规模的基础LLM,通过规则化奖励机制让LLM自主学会推理和搜索,提供完整的训练流程和工具支持。
一句话让DeepSeek思考停不下来,北大团队:这是针对AI的DDoS攻击
北大团队发现一段提示词可以让大模型陷入无限思考,并且这种现象可以传递和复制。研究显示乱码问题更容易引发模型的“stuck”机制,说明模型有一定程度的防御措施,但面对具有含义的正常文本时仍需加强。
黄仁勋谈推理数据智能新定律,北京大学与神旗数码建立实验室加速AI数据应用|
英伟达发布四季度和全年财报,提出推理数据计算的扩展规律。神州控股旗下神旗数码发布智能化软件平台‘燕云Infinity’,助力企业数字化转型。
3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?
波士顿动力机器狗Spot通过强化学习提高了3倍速度至18.7千米/小时,超越了小型犬的平均奔跑速度。研究人员发现限制机器人运动速度的主要因素是电池供电能力,并提出增加四脚同时离地的飞行阶段可提高速度和稳定性。