中科院甩出多模态“核弹”!类GPT-4o多模态模型开源!支持语言-视觉-语音任意组合交互!

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。

一场没有遥控手柄的机器人足球赛,担架员成了最忙碌的人

人形机器人在一场3V3足球比赛中摔倒后需担架员抬离场地。加速进化旗下的T1机器人依靠视觉传感器、算法决策及运动控制实现自主运行。比赛中展示出复杂的技术能力,但仍存在技术瓶颈。该比赛吸引了多个赞助商和观众到场观看,为未来商业运营探索路径。

Arch Gateway: AI Gateway的前瞻选择

AI Gateway 解决了大模型应用中复杂的问题,通过 Arch Config 文件实现智能路由和工具调用。它将一些公共逻辑剥离至基础设施层统一处理,如上下文注入、模型选择及安全防护等。项目旨在让开发者专注于核心业务逻辑,提高开发效率与系统稳定性。