AI竟然搞不清左右大模型空间感有多差
杯子在我左边还是右边?这问题看起来简单,GPT-4o这样的视觉语言大模型(VLM)却经常答错。
原因在于:这些模型只能从静态图文中学习空间信息,视角单一,空间推理能力差。当问题涉及多角度判断时,它们就开始“宕机”。
为了测评这类弱点,浙江大学、电子科技大学和香港中文大学联合推出了首个评估VLM空间定位能力的基准体系——ViewSpatial-Bench。它设有五种任务,覆盖相机与人类两种视角,还有自动化的3D标注流水线,生成5700多个问答对。
测试发现,主流大模型普遍翻车。人物注视方向这种任务,准确率低到25%;即便GPT-4o,也只能勉强达到36%。不少模型还出现“人物视角表现优于相机视角”的反常现象,说明它们更擅长处理第三人称信息,却难以从镜头视角进行空间映射。