强化学习归档 - 第37页共46页

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

2025年2月8日23时作者新智元

ek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为

从扭秧歌到单脚跳，HugWBC让人形机器人运动天赋觉醒了

2025年2月8日12时作者机器之心

AIxiv专栏介绍及其新成果HugWBC控制器，支持机器人同时掌握多种步态及精细调整行为指令，提高运动控制能力。该研究成果在模拟环境中训练，并通过评估验证其有效性。

Oat-Zero：深度剖析AI模型自我反思行为的轻量级复现项目

2025年2月8日8时作者 NLP工程化

Oat-Zero项目深入剖析AI模型的自我反思行为，并通过强化学习优化其推理能力，提供完整的实验复现步骤。

R1-Computer-Use：将Deepseek R1的强化学习技术应用于计算机使用场景

2025年2月8日8时作者 NLP工程化

R1-Computer-Use利用Deepseek R1的强化学习技术优化计算机使用场景中的AI行为，支持文件操作、命令行交互等多种任务。

历史分水岭：DeepSeek GitHub星数超越OpenAI！大佬揭秘仅用450美元训推理模型

2025年2月7日23时作者新智元

I！V3的Star数，如今已经碾压OpenAI最热门的项目。机器学习大神的一篇硬核博文，直接帮我们揭

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

2025年2月7日16时作者新智元

下场All in智能体。刚刚，首个自主SWE智能体面世，不仅会主动改bug修复错误，还能自主提交PR

李飞飞S1成本仅50美元性能媲美Deepseek-R1，Logic RL成功重现了 DeepSeek R1 Zero 模型

2025年2月7日12时作者每日AI新工具

本文介绍了5个AI和机器学习相关项目及工具：s1用于测试时间缩放提高推理效率；R1-V通过强化学习提升视觉语言模型泛化能力与训练效率；deepseek.cpp是一个基于C++的CPU-only推理实现，旨在为DeepSeek大语言模型提供支持；Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力；OpenHealth则是一款本地运行的AI健康助手。

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

2025年2月6日16时作者新智元

OpenAI联创John Schulman离职加入竞争对手Anthropic，Schulman曾负责ChatGPT核心架构开发。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31