月度归档: 2024 年 12 月
深度|AI搜索独角兽Perplexity CEO:如果用一个最终衡量标准来评估我们的进步,那就是对世界的理解是否加深
图片来源:Stanford Graduate School of Business
Z Highli
速递|谷歌Gemini正在迫使承包商对超出其专业领域的AI响应进行评分
Google’s new guidelines for Gemini contractors require them to evaluate prompts regardless of their expertise, leading to concerns about the platform’s accuracy on certain topics.
南加大团队提出MARVEL:基于认知科学的多维抽象视觉推理基准测试
研究团队提出MARVEL数据集来评估多模态大语言模型的抽象视觉推理能力,该数据集中包含了770个高质量测试样例,并覆盖了六种核心知识模式、多样化的几何和抽象形状输入以及五种不同的任务配置方式。实验结果显示大多数模型在MARVEL上的表现接近随机水平,揭示出模型的视觉感知能力是提升其抽象视觉推理的关键瓶颈。