【[21星]LongBio-Benchmark:一个用于评估长上下文语言模型的可

爱生活爱珂珂 2025-06-27 14:25:06

【[21星]LongBio-Benchmark:一个用于评估长上下文语言模型的可控基准测试工具。亮点:1. 提供15种任务,覆盖理解、推理和可信生成能力;2. 可控配置,支持上下文长度、干扰密度等调节;3. 持续更新结果,支持多种模型测试】

'LongBio Benchmark: A controlled benchmark for Long-Context Language Models'

GitHub: github.com/Thomasyyj/LongBio-Benchmark

长文本模型 基准测试 自然语言处理 人工智能 ai兴趣创作计划

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注