人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

本文提出VLM²-Bench评测基准,旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力,共涵盖9个子任务及3060个测试案例。

计算效率提升3000倍!崂山实验室等提出海洋环境智能预报大模型「问海」,性能优于数值海洋预报

崂山实验室研发团队通过物理海洋学与人工智能融合,推出全球高分辨率1/12°海洋环境智能预报大模型「问海」。其预测中尺度涡旋性能优于现有数值预报系统,并在计算效率上提升了3000倍。