仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

清华大学等团队提出PRIME方法,仅用8张A100,在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME,准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题,有望推动复杂推理能力提升。

具身智能工业场景需求明确,扩大应用场景和处理复杂数据仍是发展重点|云深处李超@MEET2025

云深处科技联合创始人李超在MEET 2025智能未来大会上表示,具身智能提高了传统机器人的泛化能力。目前行业处于L2级,主要应用于工业场景。云深处已推出多款面向电力、消防、救援等行业的机器人产品,并展示了其在实际应用中的优势和挑战。

具身智能读书会启动:走向现实世界的下一代AI系统

集智俱乐部联合上海交通大学等组织发起「具身智能」读书会,采用自下而上的层级结构探讨机器人与具身智能技术前沿。读书会涵盖硬件系统设计、数据及仿真环境应用、机器人学习方法以及具体应用场景分析等内容,旨在促进跨学科合作,解决复杂性挑战、学习泛化等问题。

国产机器狗成精了!野外跑酷强到可怕,驮成年小伙遛弯儿,售价109万

宇树机器狗Unitree B2-W最新视频展示了其多项技能,包括爬山、涉水、跑酷等,并能够载人。波士顿动力Atlas也更新了视频展示后空翻技能,科技公司致力于提升机器人机动性和功能性。

o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现

OpenAI的o3模型智商高达157,远超人类平均水平。仅用一年时间实现质变,甚至被认为接近陶哲轩的225-230智商水平。不过有争议指出其可能通过特定数据集进行微调。未来或许还有更强大的Orion模型出现。

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

OpenAI发布强化微调(RFT)API,只需几十个高质量样本即可定制专家模型。相比标准指令调优,RFT通过成千上万epochs让模型学习新行为,稳定性提升。技术实现尚不明确,但已显示出在基础语言模型上的潜力。