实时助手归档

中科院甩出多模态“核弹”！类GPT-4o多模态模型开源！支持语言-视觉-语音任意组合交互！

2025年6月29日8时作者开源星探

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型，支持文本、图像和语音交互，生成文本和语音回复。其核心在于高效模态对齐技术，仅需少量数据即可训练，并提供无缝的‘边听边看’体验。