无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025

清华和IDEA的研究团队提出HRAvatar,一种基于3D高斯点的单目视频重建方法,实现灵活且精确的几何变形、表情编码器提升表情参数提取准确性,并通过分解外观属性(反照率、粗糙度、菲涅尔反射)实现真实重光照。

小学数学题,大模型集体不及格!达摩院推出新基准VCBench

大模型在小学数学题测试中表现不佳,平均得分为47.03%-49.77%,显著低于人类的93.30%。达摩院推出的新基准VCBench专注于评估具备显式视觉依赖性的多模态数学推理任务,强调vision-centric而非knowledge-centric。该基准主要针对小学1-6年级的数学问题,全面评估纯视觉推理的多种能力,涵盖六大核心认知领域和五种不同认知能力。

字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!

字节跳动开源文档解析模型Dolphin,相比同类大模型提升2倍解析效率。其采用两阶段解析方法,先解析结构后内容,性能超越GPT-4.1等通用多模态和垂类OCR模型。