多模态大模型归档

模型权重、训练代码、数据集完全开源！BLIP3‑o：CLIP + Flow Matching，理解生成一条龙服务

2025年8月4日23时作者极市干货

解与生成两项功能在同一框架内统一支持。它采用了基于
CLIP 特征的 Diffusion Trans

2025年8月4日16时作者智东西

小米公司正式开源声音理解大模型MiDashengLM-7B，其在22个公开评测集上刷新多模态大模型最好成绩，并在推理效率和数据利用率方面表现突出。该模型基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B作为自回归解码器训练而成。

2025年8月1日23时作者开源AI项目落地

一款名为VideoCaptioner的视频字幕生成工具，支持多种视频格式，具备精准转录、优化翻译及智能断句等功能。

2025年7月26日8时作者智东西

式开幕前一天，阶跃星辰在发布会上接连放出一系列重磅消息。
首先，阶跃发布
新一代主力基座模型Step

2025年7月25日23时作者财联社AI daily

宇树科技发布第三款人形机器人UnitreeR1，售价3.99万元起，支持开发/改制，灵活超轻量约25Kg，集成语音和图像大模型。

2025年7月23日14时作者老刘说NLP

2025年7月23日，北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现；后者则针对多页理解问题，通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

2025年7月16日12时作者 Z Potentials

无界方舟宣布完成Pre-A & Pre-A+轮亿元级别融资，公司利用自研多模态大模型打造AI应用。创始人曾晓东博士拥有深厚的技术背景和产业化经验，目前公司已推出国内SOTA的EVA多模态模型，并实现商业化落地，覆盖生物医药、金融等多个领域。

2025年7月14日23时作者机器之心

同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎，本文的通讯作者为清华大学自动化系鲁继文教授。

2025年7月12日16时作者量子位

清华大学团队提出EscapeCraft，一个3D密室逃脱环境来评估多模态大模型在视觉推理任务中的能力。通过分析不同模型的表现，揭示了它们是否能像人类一样进行推理和决策，并发现了模型存在的多种错误类型。