AI竟然搞不清左右大模型空间感有多差杯子在我左边还是右边？这问题看起来简单，GP

量子位看科技 2025-06-02 14:32:28

AI竟然搞不清左右大模型空间感有多差

杯子在我左边还是右边？这问题看起来简单，GPT-4o这样的视觉语言大模型（VLM）却经常答错。

原因在于：这些模型只能从静态图文中学习空间信息，视角单一，空间推理能力差。当问题涉及多角度判断时，它们就开始“宕机”。

为了测评这类弱点，浙江大学、电子科技大学和香港中文大学联合推出了首个评估VLM空间定位能力的基准体系——ViewSpatial-Bench。它设有五种任务，覆盖相机与人类两种视角，还有自动化的3D标注流水线，生成5700多个问答对。

测试发现，主流大模型普遍翻车。人物注视方向这种任务，准确率低到25%；即便GPT-4o，也只能勉强达到36%。不少模型还出现“人物视角表现优于相机视角”的反常现象，说明它们更擅长处理第三人称信息，却难以从镜头视角进行空间映射。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

国产开源模型登HuggingFace热榜阿里突破长文本训练难题阿里开源长文本推

2

科学家发现空气取水新材料可重复使用的除湿袋科学家发现空气取水新材料，荒野求生不怕

3

宣称AI优先的公司后悔了多邻国撤回了AI优先声明宣布“AI优先”，要裁掉所有外包

4

字节复旦团队推出自适应推理框架摆脱模型对思维链过度依赖过度依赖CoT思维链推理会

5

【形式化证明与大模型：共创可验证的AI数学未来】量子位直播就在5月，前有Dee

6

AI冲击应届生岗位AI正取代入门级工作AI浪潮，反而让00后“吃尽时代黑利”？领

7

北大小模型比肩DeepSeek满血版只用5%参数媲美DeepSeek满血版北大团

8

MIT发现新型超导体科学家在石墨烯中发现磁性超导Nature最新发布的文章显示

9

让AI给颜值打分AI准确估算肉毒杆菌注射剂量GPT，GPT，谁是世界上最美丽的人

10

美团公布2025年Q1财报王兴称自研模型接近GPT4o水平美团公布了2025年Q

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

左边是华为拍的，右边是苹果拍的，大家觉得哪个好看？

2

这颜值暴击！美到屏保都换了

3

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

4

这中控屏幕看起来有点丑

5

2025年手机选购指南，全价位段手机推荐

6

一图解读：十款手机配置，各显神通，你更喜欢哪款？

7

姐那锤子是干啥使的，快说！

8

一个人躺在沙发上玩手机。

9

以前这样挂着一部手机那是相当时髦的

10

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

科技最新文章

1

余承东一觉睡醒，收到2个消息一个是好消息，另一个是坏消息第一个好

2

昨天晚上，杨长顺和往常一样正常的直播拆机，这次拆的是华为的新手表，本来以为没什么

3

昨天晚上，终于鼓起勇气，将手机升级到了鸿蒙操作系统5.0版本。整个过程充满了忐忑

4

4K手机推荐指南，零差评体验！

5

iPhone17标准版或缩小灵动岛狗蛋倒是不care灵动岛缩步缩小，能上120H

6

开门红！荣耀400中国区首销战报出炉！荣耀400系列首销日销量同比荣耀300系列

7

荣耀值得入手的三款不同档位的机型！入手基本上不后悔。第一款荣耀X60GT

8

华为Mate80系列被寄予厚望，从处理器方面来看，它大概率会搭载麒麟9030处理

9

比亚迪终于意识到了，做“豪华”还得跟华为学？华为尊界S800上市当天，余

10

怪不得都买华为手机！这耐用程度，不是友商手机能比得了的！四年前的p40，还是麒麟