MLLM集体翻车,缺乏婴儿级常识!业界首个核心认知基准发布,LeCun转赞

新智元报道
编辑:LRST
ICML 2025研究显示大模型在核心常识测试中表现不佳,呼吁建立坚实基础后再谈高级智能。联合团队开源首个CoreCognition基准评测框架,揭示模型缺乏人类婴幼儿就具备的核心知识问题。

大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

MLE-Dojo是首个为训练和评测大模型智能体设计的交互式环境,它能模拟机器学习工程师的真实工作流程。目前八个顶尖的大语言模型在200多个真实Kaggle竞赛上的测试中,Gemini-2.5-Pro表现最佳,但仍有改进空间。

吴恩达:产品经理才是 AI 时代的最大瓶颈

AI 编程助手让代码编写变得快捷,但决定做什么成为了新的瓶颈。斯坦福教授吴恩达指出这被称为‘产品管理瓶颈’,产品经理比程序员更稀缺。他认为好的产品经理应凭直觉做出决策,并完善用户的心智模型来制定快速正确的决策。

斯坦福博士后创业,给机器人做“电子皮肤”|涌现新项目

途见科技通过‘电子皮肤’触觉系统,为具身智能增加视觉、听觉之外的感知。公司核心业务包括可拉伸多模态柔性电子皮肤及其在智能机器人、智能家居等领域的应用,并计划启动Pre-A轮融资。

别跟LLM太交心!斯坦福新研究:AI不能完全取代人类心理治疗师

最新研究表明,包括ChatGPT和Llama在内的AI模型在处理抑郁、妄想等问题时可能输出危险建议。研究发现,AI治疗师缺乏识别潜在危机和提供适当干预的能力,并存在歧视性回应模式,可能导致患者病情加剧。

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。