大模型全军覆没,中科院自动化所推出多图数学推理新基准 CVPR 2025

近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估MLLM(多模态大语言模型)的数学推理能力。结果发现,包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出,现有的多模态数学基准大多局限于单一视觉场景,而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景,覆盖11个数学领域,并分为三个难度级别。

目标超级智能,前DeepMind科学家离职创业,获1.3亿刀融资

Reflection AI 成立,旨在开发超级智能。该公司已获1.3亿美元融资,估值达5.55亿美元。两名前谷歌DeepMind成员担任CEO和联合创始人,团队包括多名顶尖AI研究人员和工程师。公司目标是开发自主编程工具,并将聚焦于自动执行狭窄的编程任务。

播客创作者的福音!港中文、微软、小红书联合推出PodAgent,多智能体协作超给力!

香港中文大学联合微软和小红书发布PodAgent技术成果,实现播客全流程自动化生成。其主要功能包括智能语音合成、质量评估与迭代等。该系统通过多智能体协作技术和大语言模型,大幅降低播客创作门槛,并在媒体、教育、企业等领域具有广泛应用前景。