中科院甩出多模态“核弹”!类GPT-4o多模态模型开源!支持语言-视觉-语音任意组合交互!

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。

一场没有遥控手柄的机器人足球赛,担架员成了最忙碌的人

人形机器人在一场3V3足球比赛中摔倒后需担架员抬离场地。加速进化旗下的T1机器人依靠视觉传感器、算法决策及运动控制实现自主运行。比赛中展示出复杂的技术能力,但仍存在技术瓶颈。该比赛吸引了多个赞助商和观众到场观看,为未来商业运营探索路径。