LocateAnything 是 NVIDIA 推出的视觉语言模型加速方案，通过

LocateAnything 是 NVIDIA 推出的视觉语言模型加速方案，通过并行框解码一次性预测完整边界框，彻底去掉逐坐标 token 生成的瓶颈，实现每秒 12.7 个框的检测速度，比 Qwen3-VL 快 10 倍，同时在 LVIS 上 F1 提升 3.8%。

仅需 30 亿参数即可在消费级 GPU 上运行，一套模型同时支持目标检测、GUI 定位、OCR 与文档理解，适合计算机代理、机器人与文档处理流水线。全部权重、代码、演示与论文均已开源。

项目演示：huggingface.co/spaces/nvidia/LocateAnything