SWE-Bench不灵了?Cursor刚出的编程基准,直接戳穿现有评测3大痛点 编程智能体时代,大家都在找能测真实能力的AI评测,但现有基准总跟实际用起来脱节。Cursor刚发布的CursorBench,正好填补了真实场景评测的空白。 现有基准的问题其实很明显,要么任务类型不真实,SWE-Bench只让AI修GitHub bug,Terminal-Bench是谜题式挑战,可Cursor在博客里说,真实开发中开发者要改多文件、分析生产日志、跑实验,这些基准根本覆盖不到。要么评分机制不合理,很多基准假设一个问题只有一个答案,但真实需求里不同方案的风格、架构都不一样,要么误判正确方案,要么为了评估强行限制。还有数据污染问题,基准用久了模型会直接学这些数据,测出来的分根本没价值,这也是行业里公认的问题。 有人会说现有基准标准化强,方便对比,但标准化的代价是脱离真实开发场景。开发者不会只让AI修bug,也不会给AI写得明明白白的需求,反而更常说“帮我改下这个功能”“看看日志里的问题”。 所以CursorBench的出现,正好把这些痛点都解决了。它的任务来自真实开发场景,甚至故意留模糊描述,就是要测AI应对真实需求的能力。 评测里的AI很厉害,实际用起来却连改个多文件都搞不定,Cursor这次算把“评测要贴近真实”这件事说透了。