MLLM集体翻车,缺乏婴儿级常识!业界首个核心认知基准发布,LeCun转赞
新智元报道
编辑:LRST
ICML 2025研究显示大模型在核心常识测试中表现不佳,呼吁建立坚实基础后再谈高级智能。联合团队开源首个CoreCognition基准评测框架,揭示模型缺乏人类婴幼儿就具备的核心知识问题。
新智元报道
编辑:LRST
ICML 2025研究显示大模型在核心常识测试中表现不佳,呼吁建立坚实基础后再谈高级智能。联合团队开源首个CoreCognition基准评测框架,揭示模型缺乏人类婴幼儿就具备的核心知识问题。
MLE-Dojo是首个为训练和评测大模型智能体设计的交互式环境,它能模拟机器学习工程师的真实工作流程。目前八个顶尖的大语言模型在200多个真实Kaggle竞赛上的测试中,Gemini-2.5-Pro表现最佳,但仍有改进空间。
Meta任命ChatGPT核心研究者赵晟佳为超级智能首席科学家,Meta将组建一支与OpenAI、谷歌竞争的AI梦之队,并准备提供1GW超大规模算力支持。
Meta 宣布清华校友赵晟佳将担任超级智能实验室首席科学家。此前赵晟佳已与多位顶尖学者合作,并在 OpenAI 深度参与多项研究工作。
AI 编程助手让代码编写变得快捷,但决定做什么成为了新的瓶颈。斯坦福教授吴恩达指出这被称为‘产品管理瓶颈’,产品经理比程序员更稀缺。他认为好的产品经理应凭直觉做出决策,并完善用户的心智模型来制定快速正确的决策。
途见科技通过‘电子皮肤’触觉系统,为具身智能增加视觉、听觉之外的感知。公司核心业务包括可拉伸多模态柔性电子皮肤及其在智能机器人、智能家居等领域的应用,并计划启动Pre-A轮融资。
最新研究表明,包括ChatGPT和Llama在内的AI模型在处理抑郁、妄想等问题时可能输出危险建议。研究发现,AI治疗师缺乏识别潜在危机和提供适当干预的能力,并存在歧视性回应模式,可能导致患者病情加剧。
中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。