上海人工智能实验室归档

南洋理工、北大、上海AI实验室开源长记忆世界模型

2025年7月22日12时作者 AIGC开放社区

AIGC专业社区关注微软、百度等大模型进展。南洋理工大学等团队开源长记忆世界模型WORLDMEM，突破3D空间一致性难题。该模型通过独特的记忆机制，持续记录虚拟世界的视觉和状态信息，支持动态更新与高效检索。

2025年7月19日16时作者量子位

给大模型来一场‘压力测试’，研究团队设计REST框架，在一个多任务并行推理场景中发现顶级模型的表现大幅缩水。通过上下文预算分配、跨问题干扰抵抗和动态认知负载管理等能力评估，揭示了当前评测方法的局限性，并提出了新的评测数据构建范式。

2025年7月18日8时作者机器之心

来自上海人工智能实验室与新加坡南洋理工大学的研究者开发了Evaluation Agent，一个AI评估工具，能根据用户需求动态分析视觉生成模型的表现，提高评估效率、灵活性和可解释性。

2025年7月16日23时作者 PaperWeekly

AniCrafter 通过引入3DGS Avatar + 背景视频作为条件控制视频扩散模型，实现任意角色在任意场景下的动画化任务。项目和代码链接已提供。

2025年7月11日23时作者机器之心

ICML 期间，机器之心联合多家机构举办 ‘云帆・ICML 2025 AI Talent Meetup’，邀请企业与人才交流互动，涵盖特邀报告、人才展示等多个环节。

2025年7月5日16时作者量子位

上海人工智能实验室等机构联合推出Sekai项目，收集全球超过5000小时第一人称行走与无人机视角真实世界或游戏视频数据集，用于交互式视频生成、视觉导航和视频理解。

2025年6月29日11时作者机器之心

本文提出了一种名为MokA的方法来解决当前主流多模态微调策略的问题，该方法兼顾单模态信息的独立建模和跨模态交互建模。研究团队在多个场景下进行了实验，并证明了其有效性。

2025年6月20日23时作者机器之心

上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent，首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型，在真实环境中实现零样本单步动作预测90%的准确率。

2025年6月19日23时作者机器之心

该研究比较了DPO和GRPO在自回归图像生成中的应用效果，发现DPO在域内任务上表现更好，而GRPO在域外泛化能力上更出色。研究还探讨了不同奖励模型及扩展策略对这两种算法的影响。

2025年6月19日8时作者机器之心

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题，通过解耦语义合成与细节精修，显著减少采样步数的同时保持了较高的视觉质量。