刷到不同的博主分享 Opus 6、7、8 没什么太大区别/有退步/进步乏善可陈有感。
其实,这就是模型的评估困境。
不一定是模型能力没有进步,更大概率是绝大多数人工作涉及到的编程复杂性、数字环境复杂性,已经无法分辨出这个段位的模型能力的高下了。
在辅助驾驶领域,我认为同样的事情已经在 FSD 上上演了。
昨天周光说 FSD 现在的 MPCI,就是安全接管里程已经超千公里了,也就是每超千里,才会收集到一次安全接管。但这里的千公里可能很模糊,昨天晚上 David Moss,那个之前 FSD 零接管横穿美国的老哥宣布,又花了 4 天 21 个小时横穿了加拿大,超 6000 公里的行程,不是没有安全接管,是没有接管过。
之前和一个在国产 TOP 智驾做研发的朋友讨论过这个,假设 FSD 的模型能力是跑 1000 公里可以收集到一个极端场景,按特斯拉之前在 AI infra 的投入,储备 10 万条这类极端场景是很轻松的。 1000*10 万 = 1 亿公里。
每一个新的 FSD 模型在推送前,先在这 10 万条数据集里闭环跑一遍,也就意味着每一个全量推送给用户的 FSD 模型,已经先跑了上亿公里,这里没算其他员工车队、内测用户提交的优化。
你作为普通用户收到这个更新,每天就上下班,接送孩子去去山姆沃尔玛,你那点场景能触发安全接管吗?能分辨出来不同版本的模型能力的区别吗?