【[28星]AbstentionBench:大语言模型的“谨慎回答”基准测试工具。它能帮助评估LLM在面对无法回答的问题时的“拒绝回答”能力,这对于可靠部署LLM至关重要。亮点:1. 覆盖20个数据集,包括3个新的未明确指定推理挑战;2. 支持20种开放和封闭的LLM模型;3. 提供人类验证的评估结果,确保评估的准确性。】
'AbstentionBench: A Holistic Benchmark for LLM Abstention'
GitHub: github.com/facebookresearch/AbstentionBench
大语言模型 模型评估 人工智能 ai兴趣创作计划