视觉定位归档

无坐标时代来临！微软开源革命性GUI定位神器，注意力机制+多区域预测，适配任意屏幕！

2025年6月9日8时作者开源星探

微软开源GUI-Actor无坐标视觉定位工具，通过注意力机制直接识别目标区域，支持网页、桌面和移动端UI，性能媲美甚至超越传统方法。

2025年2月22日8时作者量子位

由单张图像拓展至多图像应用场景。
比如，在复杂的相册中自动识别出Luigi并在第二张图中找到他，或

2025年1月31日16时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2025年1月22日16时作者 PaperWeekly

本综述系统性回顾了视觉定位（Visual Grounding）任务过去十年的发展历程，涵盖多种设置如全监督、弱监督、半监督等，并分析了各种数据集的表现。

2025年1月21日23时作者极市干货

视觉定位任务十年发展系统性回顾，涵盖传统、基于VLP和MLLM的设置，并总结了全监督、无监督、弱监督、半监督、零样本及广义定位等新型设置。