CVPR 2025 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出”时空大脑” 2025年3月14日8时 作者 极市干货 文介绍一个多模态基础模型 M agma ,通过 Set-of-Mark和 Trace-of-Mark
微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人 2025年3月10日23时 作者 量子位 微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。
刚刚,微软多模态Agent,硬核开源… 2025年2月27日14时 作者 PaperAgent 微软开源了Magma——第一个多模态AI Agent的基础模型,旨在处理虚拟和现实环境中的复杂交互,具备强大的图像、视频理解能力和灵活的任务执行能力。