深度强化学习归档 - 每时AI

图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？

2025年8月3日16时作者机器之心

Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ)，用于线性控制问题。实验表明，Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化，并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。

行业新突破：行为基础模型可实现高效的人形机器人全身控制

2025年7月22日16时作者机器之心

其复杂的动力学、欠驱动和多样化的任务需求，实现高效的人形机器人全身控制 (Whole-Body Co

AI打假AI，拿下SOTA丨厦大&腾讯优图

2025年7月20日12时作者量子位

辨真假了。
能不能让AI来做检测，“魔法打败魔法”？
厦门大学联合
腾讯优图实验室团队，就提出了这样

AI Agent平台Sedai获2000万美元融资，主打云优化

2025年6月19日8时作者 AIGC开放社区

专注AIGC领域的专业社区报道了AI Agent平台Sedai获得2000万美元B轮融资，其智能体用于优化云基础设施运行成本。

思考 RLHF 的本质以及主流算法思路

2025年5月3日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

复旦、同济等联合提出基于深度强化学习的社区布局生成方法

2025年3月19日16时作者 PaperWeekly

（Reinforcement Learning, RL）在模型训练与推理优化中的价值越发凸显。通过对

SIGIR 2025 AgentIR研讨会征稿：探索Agent驱动的信息检索新边界

2025年3月17日16时作者 PaperWeekly

第二届AgentIR研讨会将于2025年7月17日与SIGIR 2025同期举行，聚焦Agent视角下的信息检索创新。活动将讨论深度强化学习和大语言模型在信息检索中的融合应用及其理论基础、工业应用瓶颈等问题。

人形机器人企业「松延动力」完成新一轮数亿元融资

2025年3月17日11时作者机器人开放社区

「松延动力」已完成五轮融资，并开启新一轮融资计划推动技术研发和市场拓展，发布新的人形机器人产品N2。

稚晖君机器人“葡萄缝针”神技再现江湖，这次是人形的！骑自行车惊呆众人：又抽象又硬核

2025年3月11日12时作者量子位

稚晖君罕见更新视频介绍灵犀X2，该机器人能像人一样骑行并具备多种智能功能。它展示了呼吸韵律、交互能力、抽象思考和运动控制等特性。