仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
清华大学等团队提出PRIME方法,仅用8张A100,在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME,准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题,有望推动复杂推理能力提升。
清华大学等团队提出PRIME方法,仅用8张A100,在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME,准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题,有望推动复杂推理能力提升。
云深处科技联合创始人李超在MEET 2025智能未来大会上表示,具身智能提高了传统机器人的泛化能力。目前行业处于L2级,主要应用于工业场景。云深处已推出多款面向电力、消防、救援等行业的机器人产品,并展示了其在实际应用中的优势和挑战。
集智俱乐部联合上海交通大学等组织发起「具身智能」读书会,采用自下而上的层级结构探讨机器人与具身智能技术前沿。读书会涵盖硬件系统设计、数据及仿真环境应用、机器人学习方法以及具体应用场景分析等内容,旨在促进跨学科合作,解决复杂性挑战、学习泛化等问题。
宇树机器狗Unitree B2-W最新视频展示了其多项技能,包括爬山、涉水、跑酷等,并能够载人。波士顿动力Atlas也更新了视频展示后空翻技能,科技公司致力于提升机器人机动性和功能性。
OpenAI的o3模型智商高达157,远超人类平均水平。仅用一年时间实现质变,甚至被认为接近陶哲轩的225-230智商水平。不过有争议指出其可能通过特定数据集进行微调。未来或许还有更强大的Orion模型出现。
OpenAI发布强化微调(RFT)API,只需几十个高质量样本即可定制专家模型。相比标准指令调优,RFT通过成千上万epochs让模型学习新行为,稳定性提升。技术实现尚不明确,但已显示出在基础语言模型上的潜力。