微软全新代码修复评测基准Agent全自动搭建代码运行环境长期以来主流的代码修复评

量子位看科技 2025-06-19 18:09:57

微软全新代码修复评测基准Agent全自动搭建代码运行环境

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

微软发布全新代码修复评测基准SWE-bench-Live，不仅引入了来自GitHub最新的Issue，显著提升了对模型评估的实时性与准确性，还实现代码运行环境的全自动化构建与自动更新，打破了传统静态评测基准的局限。

更多技术细节，欢迎查看文章🔎

0 阅读：2

猜你喜欢

鸿蒙NEXT生物3D屏下黑科技来了，目前据博主爆料华为和苹果都在测试屏下3D

鸿蒙NEXT生物3D屏下黑科技来了，目前据博主爆料华为和苹果都在测试屏下3D

苹果华为鸿蒙系统黑科技人脸识别

单依纯营销别的也就罢了，怎么还在营销美貌。。。😓

单依纯营销别的也就罢了，怎么还在营销美貌。。。😓

单依纯

【开源鸿蒙OpenHarmony6.0Beta1发布：进一步增强Ark

【开源鸿蒙OpenHarmony6.0Beta1发布：进一步增强Ark

华为鸿蒙系统

35岁才第一次用苹果手机，听说有排面就买了。今天早上终于咬咬牙，用10个多月

35岁才第一次用苹果手机，听说有排面就买了。今天早上终于咬咬牙，用10个多月

【12评论】

苹果 iPhone

但一时没有办法，只能安慰再买个新的。我老婆那两天还是时不时用平板查定位。终于第二

但一时没有办法，只能安慰再买个新的。我老婆那两天还是时不时用平板查定位。终于第二

警察

什么？马达又成了手机好坏的标准了？自从华为发布华为Pura80ultra后，其

什么？马达又成了手机好坏的标准了？自从华为发布华为Pura80ultra后，其

华为

很多小区空调设备平台会有百叶扇，好处是房子更加美观了，坏处是空调耗电量至少增加1

很多小区空调设备平台会有百叶扇，好处是房子更加美观了，坏处是空调耗电量至少增加1

【2点赞】

空调

6月20日，华为开发者大会上，上千名观众都有了一个惊奇的发现，那就是余承东在演讲

6月20日，华为开发者大会上，上千名观众都有了一个惊奇的发现，那就是余承东在演讲

【3评论】

华为余承东开发者大会 ai

量子位看科技

感谢大家的关注

作者最新文章

1

一键搞定提示词优化提示词优化实用工具感觉自己的AI的输出总是差点意思？不如试试这

2

苹果论文成连续剧了模型思考能力论战再升级苹果团队的论文，快变成连续剧了……第一集

3

GitHub数据工程师手册数据工程师资源汇总GitHub上发布的《数据工程师手册

4

华为正式发布鸿蒙6Harmony6小艺更聪明刚刚，华为余承东在HDC2025上正

5

科学家发现病毒细菌中间体科学家发现远古寄生菌最近，科学家意外发现了一种前所未见的

6

AGI概念为何争论不休AGI只是营销概念吗究竟什么是AGI，为何AI圈子争论不休

7

Altman称自己孩子永远比不上AIAltman靠ChatGPT带娃今年2月，S

8

微软全新代码修复评测基准Agent全自动搭建代码运行环境长期以来主流的代码修复评

9

摩尔线程IPO辅导验收完成国产GPU离上市更近了国产GPU企业摩尔线程，已完成I

10

万字披露奥特曼AI帝国OpenAI资本布局被揭露“AI行业观察大项目”《Open

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

这颜值暴击！美到屏保都换了

2

一图解读：十款手机配置，各显神通，你更喜欢哪款？

3

以前这样挂着一部手机那是相当时髦的

4

618手机大促，国产手机超值优惠，等你来！

5

4K手机推荐指南，零差评体验！

6

关于华为Pura80全系芯片的真机实测已经出来了，确认为Mate70同款的麒麟9

7

看来Mate系列才是真旗舰，昨天发布的Pura80系列虽然影像牛的不行，但有一点

8

左边是我花了5499国补价买到的iPhone16Pro，右边是苹果直营店里

9

华为pure80发布了，起步就是pro版本，价格6499起，基本款都不给了，价格

10

不对劲，华为Mate70系列怎么了，好像用的人不多啊。相对而言，Pura70系列

科技最新文章

1

菊厂首销也会扑街？在"管够+首销第三方破发"的加持下Pura80系列大杯、加

2

华为已无对手，甚至连自己家都打了一遍，这你敢信吗？华为nova14系列上市24

3

这下尴尬了，本以为雷军让红米用最大体积0916C马达以及7410mAh大电池都

4

原来雷军还是记仇的。董明珠明面上点名小米不知多少回，本以为雷军每次都笑呵呵的

5

iPhone18Pro系列屏幕曝光！苹果的单孔屏终于来了！你要说不是炒剩饭谁信？

6

荣耀手机又有大动作了！7月2日的发布会上，他们会推出一款超酷的新手机——荣耀M

7

万万没想到，华为mate70pro居然还有鼎桥版。今天，我在某二手平台上逛，

8

中东让华为手机再次达到顶峰此次伊朗高管和科学家被定点清除，很大原因都是被定位

9

准备要开始了

10

iPhone18Pro系列屏幕曝光iPhone17系列还没发布已经有iPho