微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
OmniParser V2 是通过更大规模的交互元素检测数据和图标功能描述数据训练,实现更高效的 GUI 解析,并在 ScreenSpot Pro 基准测试中取得了 39.6 的 SOTA 准确率。
微软发布OmniParser V2,一款开源屏幕解析工具,能够将任何LLM变成能操作计算机的Agent,并包含改进后的数据集和模型,实现更低延迟和更高准确率。