上海人工智能实验室归档 - 第2页共4页

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

2025年6月19日23时作者机器之心

该研究比较了DPO和GRPO在自回归图像生成中的应用效果，发现DPO在域内任务上表现更好，而GRPO在域外泛化能力上更出色。研究还探讨了不同奖励模型及扩展策略对这两种算法的影响。

2025年6月19日8时作者机器之心

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题，通过解耦语义合成与细节精修，显著减少采样步数的同时保持了较高的视觉质量。

2025年6月17日16时作者量子位

上海人工智能实验室与中国人民大学提出GRA框架，通过多人协作机制让小模型协同生成高质量训练数据，其生成的数据质量媲美甚至优于单个大型语言模型。

2025年6月12日16时作者 PaperWeekly

大语言模型驱动的多智能体系统在构建时面临手动设计和调试的瓶颈。新加坡国立大学等团队推出MaAS框架，利用智能体超网技术实现按需定制的动态智能体服务，提高效率并降低成本。

2025年6月6日23时作者机器之心

SophiaVL-R1 是一项基于类 R1 强化学习训练框架的新模型，它不仅奖励结果的准确性，还考虑了推理过程的质量。通过引入思考奖励机制和 Trust-GRPO 训练算法，SophiaVL-R1 提升了模型的推理质量和泛化能力，在多模态数学和通用测试数据集上表现优于大型模型。

2025年6月6日16时作者 PaperWeekly

近期研究表明，线性序列建模（如 Lightning Attention、Mamba2）与混合专家模型架构（MoE）的结合在高效大模型领域引起了广泛关注。上海人工智能实验室团队的最新研究首次系统地实现了这两种技术的结合，并开源了完整的技术框架。

2025年6月5日16时作者量子位

上海人工智能实验室联合多家单位提出了一种名为VeBrain的新模型，该模型通过统一感知、推理和控制建模方式实现了多模态大模型对物理实体的直接操控。它在视觉感知、空间推理和机器人控制方面均表现卓越，并且与现有模型相比，在多个基准测试中表现出最佳性能。

2025年5月22日23时作者量子位

首个应用型AI翻译测评榜单TransBench上线，新增幻觉率、文化禁忌词等指标。TransBench评测数据集已全面开源，涵盖多种语言，针对电商和文化特性等方面进行实战考核。目前发布的首期测评结果中，GPT-4o、DeepL Translate、Qwen系列表现突出。

2025年5月5日14时作者小兵的AI视界

清华大学和上海人工智能实验室提出测试时强化学习(TTRL)，通过在无标签数据上利用多数投票等方法估计奖励信号来提升大规模语言模型性能。

2025年5月1日23时作者机器人开放社区

首批5项人形机器人系列国家标准获批立项，涵盖仿真测试、环境感知、决策规划等关键技术要求。