千寻干翻英伟达是逆袭还是剧本？

最近具身智能圈子里，关于 RoboArena 榜单的争论直接撕起来了。一边是铺天盖地的“国产模型力压英伟达登顶”的通稿，另一边则是各种“水分太大、野鸡榜单”的质疑。

作为一个常年扒后台数据的乐子人，我直接花了俩小时把RoboArena的后台评测日志和原始数据啃了一遍。

下面我纯用数据说话，不吹不黑，给你们还原这场“诸神之战”的真相。

1、你们去RoboArena看排名，会发现一个诡异的事：英伟达有大号和小号同时在榜，balsomsoc倒过来就是cosmoslab。一样的API但是小号成绩却是第八名。

2、千寻Spirit v1.6在5月30日前一直叫j2 vla，已经连续第一名1个月了。6月才开始密集的测试，但是奇怪的是中间遭遇过胜率突降。

一个值得关注的点，RoboArena上承担了45%评测工作的中立众包评测方frodobots，只有Spirit v1.6模型接受了他的24次评测，Pi0.5进行了400+次评测，其余模型基本全部失踪。

最后谈谈关于“刷榜”指控：说千寻完全清白那也不客观，它利用ECUST机构在改名后集中拉升胜率，确实有“补分”之嫌。但说它靠造假登顶，那也绝对不成立。

至于NVIDIA Cosmos3-Nano就是个“温室花朵”。而千寻Spirit v1.6是78.3%的中立胜率 + 23场对英伟达78.9%的直接对决胜率，确实比目前版本的Cosmos3略胜一筹。

众力资讯网

千寻干翻英伟达是逆袭还是剧本？

热门分类