众力资讯网

千寻干翻英伟达是逆袭还是剧本?

最近具身智能圈子里,关于 RoboArena 榜单的争论直接撕起来了。一边是铺天盖地的“国产模型力压英伟达登顶”的通稿,另一边则是各种“水分太大、野鸡榜单”的质疑。

作为一个常年扒后台数据的乐子人,我直接花了俩小时把RoboArena的后台评测日志和原始数据啃了一遍。

下面我纯用数据说话,不吹不黑,给你们还原这场“诸神之战”的真相。

1、你们去RoboArena看排名,会发现一个诡异的事:英伟达有大号和小号同时在榜,balsomsoc倒过来就是cosmoslab。一样的API但是小号成绩却是第八名。

2、千寻Spirit v1.6在5月30日前一直叫j2 vla,已经连续第一名1个月了。6月才开始密集的测试,但是奇怪的是中间遭遇过胜率突降。

一个值得关注的点,RoboArena上承担了45%评测工作的中立众包评测方frodobots,只有Spirit v1.6模型接受了他的24次评测,Pi0.5进行了400+次评测,其余模型基本全部失踪。

最后谈谈关于“刷榜”指控:说千寻完全清白那也不客观,它利用ECUST机构在改名后集中拉升胜率,确实有“补分”之嫌。但说它靠造假登顶,那也绝对不成立。

至于NVIDIA Cosmos3-Nano就是个“温室花朵”。而千寻Spirit v1.6是78.3%的中立胜率 + 23场对英伟达78.9%的直接对决胜率,确实比目前版本的Cosmos3略胜一筹。