OpenAI没做到,DeepSeek搞定了!开源引爆推理革命 2025年5月24日16时 作者 新智元 名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有终结。
2024图灵奖颁给强化学习两位奠基人!ChatGPT、DeepSeek背后功臣戴上迟来的冠冕 2025年3月6日8时 作者 新智元 Andrew Barto,获得了2024年图灵奖。有人说,图灵奖终于颁给了强化学习,这是迟到的「奖励
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理 2025年1月27日16时 作者 新智元 新智元报道 编辑:KingHZ 【新智元导读】 2028年,预计高质量数据将要耗尽,数据Scalin