【[28星]AbstentionBench：大语言模型的“谨慎回答”基准测试工具

爱生活爱珂珂 2025-06-18 22:23:32

【[28星]AbstentionBench：大语言模型的“谨慎回答”基准测试工具。它能帮助评估LLM在面对无法回答的问题时的“拒绝回答”能力，这对于可靠部署LLM至关重要。亮点：1. 覆盖20个数据集，包括3个新的未明确指定推理挑战；2. 支持20种开放和封闭的LLM模型；3. 提供人类验证的评估结果，确保评估的准确性。】

'AbstentionBench: A Holistic Benchmark for LLM Abstention'

GitHub: github.com/facebookresearch/AbstentionBench

大语言模型模型评估人工智能 ai兴趣创作计划

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

早！[太阳] 早安

2

晚安～ [月亮] 晚安

3

《爱可可微博热门分享(6.18)》

4

【[28星]AbstentionBench：大语言模型的“谨慎回答”基准测试工具

5

【[49星]ALE-Bench：为AI系统在算法编程竞赛中的表现提供基准测试。亮

6

【[44星]Multiverse：高效并行生成的框架，让语言模型在推理时更快更强

7

【[1.5k星]agents-towards-production：将AI Ag

8

转发赠书携手送出3本《AI超能搭档：DeepSeek+智能体实战手册》，截止20

9

《爱可可微博热门分享(6.17)》

10

【[3k星]AYA：一款强大的Android ADB桌面应用，让你轻松掌控安卓设

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

这颜值暴击！美到屏保都换了

2

一图解读：十款手机配置，各显神通，你更喜欢哪款？

3

姐那锤子是干啥使的，快说！

4

以前这样挂着一部手机那是相当时髦的

5

618手机大促，国产手机超值优惠，等你来！

6

4K手机推荐指南，零差评体验！

7

关于华为Pura80全系芯片的真机实测已经出来了，确认为Mate70同款的麒麟9

8

看来Mate系列才是真旗舰，昨天发布的Pura80系列虽然影像牛的不行，但有一点

9

华为pure80发布了，起步就是pro版本，价格6499起，基本款都不给了，价格

10

不对劲，华为Mate70系列怎么了，好像用的人不多啊。相对而言，Pura70系列

科技最新文章

1

618真的是打疯了啊，某音直播间荣耀Magic6至臻版国补后的价格竟然只有329

2

大学生荣耀手机热卖榜来了！排在前4位分别为：荣耀400、荣耀400Pro、荣耀

3

果然能打败苹果的还得是华为！第23周，华为nova14直接把iPhone

4

短短2天，罗马仕态度来了个180度大转弯，6月14日说自己坚持严格品控标准，没想

5

同是骁龙8Gen3，荣耀400Pro还是荣耀Magic6荣耀Magic6和

6

麒麟9030芯片会有哪些提升？虽然Pura80系列没有看到麒麟9030，用的

7

山东一大学禁用红米手机考试？红米足以应付各种在线考试？！首先我

8

一觉醒来用红米手机的学生天塌了！山东科技大学，禁止使用红米手机参加考试，网友

9

台积电的2nm芯片马上出来了，说实话现在对这些最先进的芯片已经无感。用华为的

10

华为官网公布了HarmonyOS5.1系统升级计划。适配范围覆盖旗下全系列重磅