模型权重、训练代码、数据集完全开源!BLIP3‑o:CLIP + Flow Matching,理解生成一条龙服务
解与生成两项功能在同一框架内统一支持。它采用了基于
CLIP 特征的 Diffusion Trans
解与生成两项功能在同一框架内统一支持。它采用了基于
CLIP 特征的 Diffusion Trans
小米公司正式开源声音理解大模型MiDashengLM-7B,其在22个公开评测集上刷新多模态大模型最好成绩,并在推理效率和数据利用率方面表现突出。该模型基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B作为自回归解码器训练而成。
近几年全球监管收紧,企业对合规需求激增。Vanta利用AI+SaaS技术,在合规工具市场快速崛起,成为行业第一。其通过多模态大模型和动态知识库实现高效合规审核,帮助客户节省大量时间和成本,并提高信任度。
2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。
无界方舟宣布完成Pre-A & Pre-A+轮亿元级别融资,公司利用自研多模态大模型打造AI应用。创始人曾晓东博士拥有深厚的技术背景和产业化经验,目前公司已推出国内SOTA的EVA多模态模型,并实现商业化落地,覆盖生物医药、金融等多个领域。
清华大学团队提出EscapeCraft,一个3D密室逃脱环境来评估多模态大模型在视觉推理任务中的能力。通过分析不同模型的表现,揭示了它们是否能像人类一样进行推理和决策,并发现了模型存在的多种错误类型。