微软开源实时交互模型:提升Agent动态复杂处理能力
微软研究院开源了实时交互世界模型MineWorld,以Transformer为核心结合《我的世界》。MineWorld参数量少于Oasis,在多方面表现更优,包括视频质量、可控性和推理速度等方面。MineWorld架构由Transformer解码器、视觉标记器和动作标记器组成,实现高效并行解码算法提高生成效率。
微软研究院开源了实时交互世界模型MineWorld,以Transformer为核心结合《我的世界》。MineWorld参数量少于Oasis,在多方面表现更优,包括视频质量、可控性和推理速度等方面。MineWorld架构由Transformer解码器、视觉标记器和动作标记器组成,实现高效并行解码算法提高生成效率。
微软发布原生1-bit大语言模型bitnet-b1.58-2B-4T,其在内存占用和CPU推理延迟上大幅降低,并且性能接近全精度模型。
微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
微软发布3.48T token训练数据集及高质量处理框架,覆盖通用、代码、数学和问答等多领域。REDSTONE项目显著提升数据质量和处理效率。
文章讨论了AI工具对知识工作者批判性思维的影响,研究发现过度依赖生成式AI会减少个人的批判性思考。微软研究院联合剑桥大学的研究指出,信任AI会导致用户减少使用自己的判断和认知能力。
用代码表示Agent行动显著提升OpenAI Deep Research系统性能,Hugging Face团队复现时采用代码Agent框架,使验证集准确率从46%提升至55.15%,未来可扩展更多文件格式和处理建议。