多模态大模型归档 - 第3页共10页

松下发布多模态大模型，文本、图像、音频随意切换

2025年6月17日8时作者 AIGC开放社区

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言等大语言模型的发展和应用落地。介绍多模态生成任务及挑战，并详细阐述了松下开发的OmniFlow多模态大模型及其技术亮点与实验验证结果。

2025年6月13日8时作者 AIGC开放社区

展和
应用
落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
计算机视觉领域从传统的卷积神

2025年6月8日8时作者 PaperWeekly

多模态大模型在文档理解领域的性能显著，但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc，揭示了当前模型的不足，并提出改进策略。

2025年6月5日16时作者量子位

上海人工智能实验室联合多家单位提出了一种名为VeBrain的新模型，该模型通过统一感知、推理和控制建模方式实现了多模态大模型对物理实体的直接操控。它在视觉感知、空间推理和机器人控制方面均表现卓越，并且与现有模型相比，在多个基准测试中表现出最佳性能。

2025年5月30日16时作者量子位

MME-VideoOCR团队评估MLLM在视频OCR中的能力，构建精细任务体系和高质量数据集，揭示了当前模型的局限性，并提出了优化建议。

2025年5月24日16时作者 AI前线

bedding 增强安全对齐），针对多模态大模型（MLLMs）的低资源安全对齐难题，创新性地通过合成

2025年5月24日16时作者机器之心

字节跳动团队提出首个真实世界场景文档理解基准数据集WildDoc，揭示当前多模态大模型在实际应用中的不足，并提出了改进策略。

2025年5月23日8时作者开源星探

字节跳动发布的BAGEL是首个支持多模态输入输出、思维链推理和MOT架构优化的跨模态超级AI模型，性能超越Qwen2.5-VL、InternVL-2.5。它能理解图像更准确，生成图像媲美Stable Diffusion 3，并在10+基准测试中表现优异。

2025年5月20日16时作者机器之心

启元实验室启动”启智杯”算法大赛，聚焦卫星遥感图像、无人机目标检测和多模态大模型对抗三大方向。大赛设立75万元奖金池，面向研究机构、企事业单位等开放参赛。

2025年5月13日8时作者机器之心

蚂蚁和中国人民大学的研究团队提出ViLAMP模型，实现对超长视频的高效处理。ViLAMP通过混合精度策略，在关键帧上保持高精度分析，大幅提升了视频理解效率，并在多个基准测试中超越现有方案。