众力资讯网

LocateAnything 是 NVIDIA 推出的视觉语言模型加速方案,通过

LocateAnything 是 NVIDIA 推出的视觉语言模型加速方案,通过并行框解码一次性预测完整边界框,彻底去掉逐坐标 token 生成的瓶颈,实现每秒 12.7 个框的检测速度,比 Qwen3-VL 快 10 倍,同时在 LVIS 上 F1 提升 3.8%。

仅需 30 亿参数即可在消费级 GPU 上运行,一套模型同时支持目标检测、GUI 定位、OCR 与文档理解,适合计算机代理、机器人与文档处理流水线。全部权重、代码、演示与论文均已开源。

项目演示:huggingface.co/spaces/nvidia/LocateAnything

AI工具计算机视觉开源项目