效果非常不错!阿里昨开源图形海报生成模型Qwen-Image

Qwen-Image 是一款基于20B参数MMDiT架构的多模态图像基础模型,能在复杂文本渲染和精确图像编辑方面实现重大突破。它特别擅长中文文本渲染,并具备高保真文本渲染、多种艺术风格生成及智能图像编辑等核心能力。

LeChat全方面对标ChatGPT,欧洲AI新贵穷追不舍

MLNLP社区是国内外知名的人工智能学术社区,致力于推动跨领域的交流合作。Mistral AI发布多个开源模型,并升级其对话式AI助手Le Chat,新增功能如深度研究模式、语音模式、原生多语言推理等,使Le Chat在应用层面与ChatGPT竞争。

中科院甩出多模态“核弹”!类GPT-4o多模态模型开源!支持语言-视觉-语音任意组合交互!

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent,首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型,在真实环境中实现零样本单步动作预测90%的准确率。