为什么有些AI线下高分却难用?Cursor的新评测,用“线上+线下”补上了漏洞 很多编程AI线下benchmark分数很高,但用户一用就发现难用。Cursor刚出的“线上+线下”评测方案,正好解决了这个“评测不准”的问题。 线下部分是CursorBench,让不同模型做同一批标准任务,从正确性、代码质量、效率、交互行为打分,这样能把模型拉到同一起跑线比能力;线上部分更关键,用A/B测试让不同用户用不同模型,看用户是不是接受代码、会不会继续追问、有没有撤销修改。这些都是真实的产品数据,直接反映AI好不好用。 比如线下CursorBench能快速筛出能力强的模型,线上测试再验证这些模型是不是真的符合用户需求,两者形成循环。线下测能力,线上测体验,这样得出的结果才靠谱。 有人会说线上测试成本高,但线下标准化的好处是快,线上的好处是真实,结合起来反而比单一评测更高效。总比测了半天,结果用户说“这AI根本不好用”强。 所以Cursor的这套方案,其实是把“实验室能力”和“真实体验”连起来了。AI好不好用,不是实验室说的算,是用户用出来的。