为什么有些AI线下高分却难用？Cursor的新评测，用“线上+线下”补上了漏洞

为什么有些AI线下高分却难用？Cursor的新评测，用“线上+线下”补上了漏洞很多编程AI线下benchmark分数很高，但用户一用就发现难用。Cursor刚出的“线上+线下”评测方案，正好解决了这个“评测不准”的问题。线下部分是CursorBench，让不同模型做同一批标准任务，从正确性、代码质量、效率、交互行为打分，这样能把模型拉到同一起跑线比能力；线上部分更关键，用A/B测试让不同用户用不同模型，看用户是不是接受代码、会不会继续追问、有没有撤销修改。这些都是真实的产品数据，直接反映AI好不好用。比如线下CursorBench能快速筛出能力强的模型，线上测试再验证这些模型是不是真的符合用户需求，两者形成循环。线下测能力，线上测体验，这样得出的结果才靠谱。有人会说线上测试成本高，但线下标准化的好处是快，线上的好处是真实，结合起来反而比单一评测更高效。总比测了半天，结果用户说“这AI根本不好用”强。所以Cursor的这套方案，其实是把“实验室能力”和“真实体验”连起来了。AI好不好用，不是实验室说的算，是用户用出来的。

众力资讯网

为什么有些AI线下高分却难用？Cursor的新评测，用“线上+线下”补上了漏洞

热门分类