中科院甩出多模态“核弹”!类GPT-4o多模态模型开源!支持语言-视觉-语音任意组合交互!

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。