多模态大模型归档

社区供稿 | 书生·万象 3.0 升级发布，创新预训练方法

下午2时 2025/04/19 作者 Hugging Face

上海AI实验室升级并开源了通用多模态大模型书生·万象 3.0 (InternVL3)，在多模态能力方面取得显著突破，成为开源模型中的性能新标杆。

下午4时 2025/04/18 作者量子位

哈工大博士生李俊劼的研究成果GiVE首次实现了指令驱动的全景式感知，解决了传统多模态模型’选择性失明’的问题。通过引入AG-Adapter模块和设计三种专门损失函数，GiVE能灵活调整注意力焦点，提升多模态任务表现。

下午2时 2025/04/18 作者小兵的AI视界

北京大学团队推出RoboMamba，一款高效多模态机器人模型，旨在提升复杂任务的推理与决策能力。其核心目标是增强视觉和语言集成能力、优化微调策略，并降低训练成本。

下午4时 2025/04/15 作者量子位

上海交通大学联合团队发布STI-Bench，评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳，准确率低于50%。论文、代码及数据已开源，为改善MLLM空间智能提供了新基准。

下午11时 2025/04/10 作者智东西

模型，给人形机器人装上大脑、眼睛、耳朵和嘴巴了！
这位傅利叶通用人形机器人GRx，立即辨认出“水”和

上午11时 2025/04/08 作者机器之心

Q-Insight 提出了一种基于强化学习训练的多模态大模型图像画质理解方案，通过挖掘大模型自身的推理潜力，实现对图像质量的深度理解，并在多个任务上达到业界领先水平。

下午4时 2025/04/04 作者量子位

日常问答中展现出惊人的上下文连贯性，在设计、咨询等需要高度创造力的任务中也大放异彩。
当GPT-4.

下午2时 2025/04/04 作者 AI技术研习社

2025年AIGC（人工智能生成内容）发展趋势及挑战分析。涵盖技术突破、应用场景拓展和市场增长等方面，并指出版权、隐私和伦理等问题。

下午4时 2025/04/02 作者新智元

清华大学等团队提出4D LangSplat方法，结合多模态大模型和状态变化网络，成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。