学术归档 - 第45页共283页

SIGGRAPH 2025｜Large Avatar Model：单图秒级打造超写实3D交互数字人，跨平台超实时驱动渲染

2025年6月20日23时作者机器之心

LAM论文提出了一种通过单张图像实现即时驱动高斯头像的方法，无需后处理网络和视频数据训练，支持跨平台实时渲染，已在多模态艺术创作、智能交互对话等领域应用。

2025年6月20日23时作者机器之心

近，很多 AI 大佬一反常态，对未来做出了超出预期的乐观预测。
诺贝尔奖获得者、AI 先驱 Geof

2025年6月20日23时作者 PaperWeekly

，首次在 OCR 领域实现了视觉文本感知、理解与生成任务在单一模型中的统一，有效缓解了多模态生成中的

2025年6月20日23时作者极市干货

极市导读
本文介绍了OpenCV CUDA模块中图像处理接口的基本使用方法，用这些CUDA接口基本

2025年6月20日23时作者 PaperWeekly

南京航空航天大学团队提出HBS-KGLLM框架，通过增强知识图谱挖掘有害信息结构化知识，实现有效探测LLMs的安全性能。该方法成功率高、成本低，并已在多款主流模型上测试表现优异。

2025年6月20日23时作者机器之心

上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent，首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型，在真实环境中实现零样本单步动作预测90%的准确率。

2025年6月20日23时作者极市干货

港中文 MMLab 提出的新方法 MINT-CoT，通过引入‘视觉交错思维链’实现细粒度视觉与文本推理融合，在多个基准数据集上刷新 SOTA，显著提升多模态大模型在数学视觉任务中的表现。

2025年6月20日23时作者机器之心

模型强调「不作诗，只做事」，深耕行业，赋能千行百业，推动产业智能化升级。从盘古 1.0 到盘古 5.

2025年6月20日23时作者极市干货

Meta等机构发布Pisces模型，它采用“双脑架构”，通过解耦视觉编码架构和三阶段渐进训练策略，实

2025年6月20日23时作者 PaperWeekly

在进行多步、长链条的推理时，即便是最先进的 MLLM，也会逐渐“忘记”最初给它的图像信息，越来越依赖