3 月 2025 - 第186页共274页

李飞飞全新「保姆」人形机器人，倒垃圾刷马桶家务全包！遥操只需Switch手柄

2025年3月11日16时作者新智元

出BRS综合框架，以后机器人执行日常家务更自主、更可靠。
对人类来说轻而易举的事，对机器人来说很难。

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

2025年3月11日16时作者量子位

阿里通义实验室薄列峰团队首次将RLVR应用于包含音频、动态视觉内容的全模态LLM，聚焦情感识别任务。研究发现模型在分布内和分布外数据集上均有显著提升，并能清晰分析不同模态的作用，目前这些模型已开源。

OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间

2025年3月11日16时作者量子位

OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为，但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为，但仍能有效识别不良意图。

吉利缩编启示录：中国汽车品牌的“生育率”正在降低｜

2025年3月11日16时作者甲子光年

集团）正在重新审视自己的品牌帝国，即便已经做出了多轮调整，但真正尘埃落定的日子还远没有到来。
据「甲

陶哲轩亲测点赞，o3-mini秒证图论难题！专家级证明完整呈现

2025年3月11日16时作者新智元

陶哲轩分享了使用AI（o3-mini）辅助证明数学难题的故事，包括成功解决了Ruzsa-Szemeredi的三角形移除引理，但当面对研究级别的问题时表现不佳。他指出，大模型在快速提供标准论证细节方面是优秀的用例，但仍需用户详细引导和验证答案的准确性。

大模型全军覆没，中科院自动化所推出多图数学推理新基准 CVPR 2025

2025年3月11日16时作者量子位

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH，旨在全面评估MLLM（多模态大语言模型）的数学推理能力。结果发现，包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出，现有的多模态数学基准大多局限于单一视觉场景，而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景，覆盖11个数学领域，并分为三个难度级别。