大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

CMU研究发现,仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上,预示着强化学习可能是实现可迁移推理的关键方法。

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% 清华腾讯斯坦福联合

清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。

3个月营收近千万!成立半年盈亏平衡的「具身风暴」完成天使轮融资!

具身风暴近日完成天使轮融资,超千万元资金将用于产品研发及量产。该公司专注于具身智能机器人交互技术研发,目标打造通用理疗机器人,核心团队包括多位博士和教授。其产品已在降低成本的同时提升了用户体验和效率。