LocateAnything评测：3B模型实现开放词汇目标检测

2026-06-20阅读 0热度 0

英伟达

视觉语言模型（VLM）正从图像理解迈向Agent、多模态交互与真实世界任务执行阶段。读懂图像已不再是终点，精准定位目标才是关键。无论开放词汇目标检测、GUI Agent的界面操控、文档解析，还是机器人与自动驾驶中的环境感知，视觉定位（Visual Grounding）能力正成为决定系统实用性的核心壁垒。

先厘清一个根本问题：当前主流视觉语言模型处理定位任务时，普遍采用「坐标Token生成」范式——将二维目标框拆解为多个一维坐标Token，逐一生成、逐步解码。这种架构难以维持目标框内部几何结构的一致性，更因严格的序列生成机制严重拖慢推理速度。 当模型需并行处理大量目标时，定位效率与精度往往顾此失彼。

针对这一长期瓶颈，NVIDIA近期开源了Eagle VLM系列新成员——LocateAnything-3B。 一款仅30亿参数的视觉语言定位模型，却覆盖开放词汇目标检测、指代表达定位、OCR文本定位、GUI元素定位，以及图像与视频中的目标指向等多元任务——其意图明确：打造统一的视觉定位与检测框架。

LocateAnything-3B的核心突破在于并行框解码（Parallel Box Decoding, PBD）机制。与逐坐标Token生成的旧方法截然不同，PBD将边界框、关键点等几何元素视为完整结构，一次性并行预测。 此举既保留了目标框内部的几何一致性，又大幅提升了解码吞吐量——模型在维持高精度定位能力的同时，推理速度显著提升。

除架构创新外，NVIDIA还围绕该模型构建了大规模训练体系。研究团队开发了可扩展的数据引擎，并推出包含超1.38亿训练样本的LocateAnything-Data数据集。数据覆盖自然场景、机器人、自动驾驶、GUI交互、文档理解及OCR等领域，极大增强了模型在复杂场景下的泛化鲁棒性。

实验数据显示，LocateAnything在多个视觉定位基准测试中同时实现了更高的定位质量与更快的解码速度，突破了传统统一视觉定位模型在速度与精度之间的权衡。对于快速演进的GUI Agent、自动标注系统及下一代多模态智能体来说，这种高效精准的空间理解能力正成为基础设施级别的必备要素。

当前，OpenBayes平台已上线该模型的Notebook教程，大幅降低了部署与体验门槛。