微软开源实时交互模型:提升Agent动态复杂处理能力

微软研究院开源了实时交互世界模型MineWorld,以Transformer为核心结合《我的世界》。MineWorld参数量少于Oasis,在多方面表现更优,包括视频质量、可控性和推理速度等方面。MineWorld架构由Transformer解码器、视觉标记器和动作标记器组成,实现高效并行解码算法提高生成效率。

微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人

微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。