中科院甩出多模态“核弹”!类GPT-4o多模态模型开源!支持语言-视觉-语音任意组合交互!

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。

中科加禾创始人崔慧敏:编译技术在AI基础设施构建中的演进

6月26日,由智猩猩、智东西共同主办的2025中国AI算力大会将在北京中关村东升科技园万丽酒店举行。会议包括主会场、分会场和展览区,并设有高峰论坛、AI推理算力专题论坛和智算中心专题论坛等内容。

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

本文提出了一种无需微调的通用图像定制方法——多主体协同注意力控制(MCA-Ctrl),通过扩散模型实现精确的背景和布局控制,解决了现有技术方案中的关键瓶颈。