为什么SWE-Bench高分的AI到CursorBench就翻车?因为新基准测的是“高效解决问题” Claude Sonnet 4.5在SWE-Bench上能拿77.2分,到CursorBench却只有37.9分。不是AI变弱了,是CursorBench测的是“高效解决真实问题”的能力。 CursorBench的任务比现有基准复杂多了,要改多文件、分析生产日志、运行长实验,甚至任务描述都故意留模糊——这些都是真实开发中常遇到的情况,而SWE-Bench只是修bug,Terminal-Bench是谜题,根本比不了。 结果就是,以前在SWE-Bench里高分的模型,到CursorBench里全歇菜了。Claude Haiku 4.5从73.3跌到29.4,Sonnet 4.5从77.2跌到37.9,而Cursor自研的Composer模型反而表现更好。更关键的是,CursorBench的排名和线上用户体验一致。分数高的模型,用户接受度也高,不会出现“线下高分线上难用”的情况。 有人会说分数暴跌是任务太难,但真实开发本来就不简单。开发者需要的不是能解决简单bug的AI,是能高效处理复杂任务的智能体,CursorBench正好测的是这个。 所以这次的结果其实在说:以前的评测测的是“能不能解决问题”,现在要测的是“能不能高效解决真实问题”,这才是编程智能体时代的核心能力。 CursorBench的结果才是“AI真实战斗力”的体现。毕竟,能快速搞定复杂需求的AI,才是真的能帮上忙的AI。