多模态模型归档

效果非常不错!阿里昨开源图形海报生成模型Qwen-Image

2025年8月5日23时作者 GitHubStore

Qwen-Image 是一款基于20B参数MMDiT架构的多模态图像基础模型，能在复杂文本渲染和精确图像编辑方面实现重大突破。它特别擅长中文文本渲染，并具备高保真文本渲染、多种艺术风格生成及智能图像编辑等核心能力。

2025年8月2日8时作者智东西

I现在都能生成武打戏了，还是人虎搏斗的那种！
近日，一条名为《风入松》的AI短片，在年度AI盛会WA

MLNLP社区是国内外知名的人工智能学术社区，致力于推动跨领域的交流合作。Mistral AI发布多个开源模型，并升级其对话式AI助手Le Chat，新增功能如深度研究模式、语音模式、原生多语言推理等，使Le Chat在应用层面与ChatGPT竞争。

2025年7月18日16时作者机器之心

Mistral AI 推出了多款开源模型，并展示了升级后的 Le Chat 模型，其功能几乎与 ChatGPT 一致。Le Chat 新增了深度研究模式、语音模式、原生多语言推理等新特性。

2025年7月9日23时作者极市干货

结果公布，腾讯优图实验室共有8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前

2025年7月7日8时作者 AIGC开放社区

通过开源的多模态大模型EarthMind，研究人员解决了地球观测数据理解中的难题，包括注意力分散和跨模态融合等问题。

2025年6月29日8时作者开源星探

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型，支持文本、图像和语音交互，生成文本和语音回复。其核心在于高效模态对齐技术，仅需少量数据即可训练，并提供无缝的‘边听边看’体验。

2025年6月28日16时作者量子位

阿里发布Qwen-VLo多模态模型，具备增强细节捕捉能力、一句指令图像编辑及多语言支持。其不仅能连续生成图片，还能识别解释图像内容，并进行注释和分割。实测显示其生图效果令人满意。

2025年6月28日14时作者小兵的AI视界

联合推出的类似
GPT-4o
的大型语言
–
视觉
–
语音模型
，
能够同时支持文本、图像和语音等

2025年6月20日23时作者机器之心

上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent，首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型，在真实环境中实现零样本单步动作预测90%的准确率。