SWE-Bench不灵了？Cursor刚出的编程基准，直接戳穿现有评测3大痛点

SWE-Bench不灵了？Cursor刚出的编程基准，直接戳穿现有评测3大痛点编程智能体时代，大家都在找能测真实能力的AI评测，但现有基准总跟实际用起来脱节。Cursor刚发布的CursorBench，正好填补了真实场景评测的空白。现有基准的问题其实很明显，要么任务类型不真实，SWE-Bench只让AI修GitHub bug，Terminal-Bench是谜题式挑战，可Cursor在博客里说，真实开发中开发者要改多文件、分析生产日志、跑实验，这些基准根本覆盖不到。要么评分机制不合理，很多基准假设一个问题只有一个答案，但真实需求里不同方案的风格、架构都不一样，要么误判正确方案，要么为了评估强行限制。还有数据污染问题，基准用久了模型会直接学这些数据，测出来的分根本没价值，这也是行业里公认的问题。有人会说现有基准标准化强，方便对比，但标准化的代价是脱离真实开发场景。开发者不会只让AI修bug，也不会给AI写得明明白白的需求，反而更常说“帮我改下这个功能”“看看日志里的问题”。所以CursorBench的出现，正好把这些痛点都解决了。它的任务来自真实开发场景，甚至故意留模糊描述，就是要测AI应对真实需求的能力。评测里的AI很厉害，实际用起来却连改个多文件都搞不定，Cursor这次算把“评测要贴近真实”这件事说透了。

众力资讯网

SWE-Bench不灵了？Cursor刚出的编程基准，直接戳穿现有评测3大痛点

热门分类