首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源

首个应用型AI翻译测评榜单TransBench上线,新增幻觉率、文化禁忌词等指标。TransBench评测数据集已全面开源,涵盖多种语言,针对电商和文化特性等方面进行实战考核。目前发布的首期测评结果中,GPT-4o、DeepL Translate、Qwen系列表现突出。

天工超级智能体:用 Office Agent 重新定义 AI 生产力

昆仑万维发布天工超级智能体(Skywork)在GAIA Benchmark上力压群雄。Skywork定位为AI版的Office,涵盖文档、PPT和表格三个场景,支持多场景写作、精美可编辑幻灯片生成及数据分析与可视化等功能。

无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025

清华和IDEA的研究团队提出HRAvatar,一种基于3D高斯点的单目视频重建方法,实现灵活且精确的几何变形、表情编码器提升表情参数提取准确性,并通过分解外观属性(反照率、粗糙度、菲涅尔反射)实现真实重光照。

小学数学题,大模型集体不及格!达摩院推出新基准VCBench

大模型在小学数学题测试中表现不佳,平均得分为47.03%-49.77%,显著低于人类的93.30%。达摩院推出的新基准VCBench专注于评估具备显式视觉依赖性的多模态数学推理任务,强调vision-centric而非knowledge-centric。该基准主要针对小学1-6年级的数学问题,全面评估纯视觉推理的多种能力,涵盖六大核心认知领域和五种不同认知能力。