为什么SWE-Bench高分的AI到CursorBench就翻车？因为新基准测的

为什么SWE-Bench高分的AI到CursorBench就翻车？因为新基准测的是“高效解决问题” Claude Sonnet 4.5在SWE-Bench上能拿77.2分，到CursorBench却只有37.9分。不是AI变弱了，是CursorBench测的是“高效解决真实问题”的能力。 CursorBench的任务比现有基准复杂多了，要改多文件、分析生产日志、运行长实验，甚至任务描述都故意留模糊——这些都是真实开发中常遇到的情况，而SWE-Bench只是修bug，Terminal-Bench是谜题，根本比不了。结果就是，以前在SWE-Bench里高分的模型，到CursorBench里全歇菜了。Claude Haiku 4.5从73.3跌到29.4，Sonnet 4.5从77.2跌到37.9，而Cursor自研的Composer模型反而表现更好。更关键的是，CursorBench的排名和线上用户体验一致。分数高的模型，用户接受度也高，不会出现“线下高分线上难用”的情况。有人会说分数暴跌是任务太难，但真实开发本来就不简单。开发者需要的不是能解决简单bug的AI，是能高效处理复杂任务的智能体，CursorBench正好测的是这个。所以这次的结果其实在说：以前的评测测的是“能不能解决问题”，现在要测的是“能不能高效解决真实问题”，这才是编程智能体时代的核心能力。 CursorBench的结果才是“AI真实战斗力”的体现。毕竟，能快速搞定复杂需求的AI，才是真的能帮上忙的AI。

众力资讯网

为什么SWE-Bench高分的AI到CursorBench就翻车？因为新基准测的

热门分类