阿里 MinMo 登场,多模态语音交互 “内卷” 升级!

阿里通义实验室推出的MinMo多模态大型语言模型在语音交互领域表现卓越,能够实现无缝语音交互,支持多种任务处理和多样化可控生成。其主要功能包括全双工语音交互、多样化可控生成以及多任务处理能力。应用场景涵盖智能客服、语音助理、人机对话系统及语音翻译等场景。

社区供稿 | 阿里国际 Ovis2 系列模型开源: 多模态大语言模型的新突破

Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。

音乐检索进入“多模态对齐”时代:清华 CLaMP-3 的三大极限突破

清华大学朱文武教授团队推出的CLaMP 3是一款多模态、多语言的音乐信息检索框架,实现了跨模态检索和零样本分类等功能。它支持27种语言,并基于对比学习训练模型,使用XLM-R预训练模型实现强大的多语言文本嵌入。