【[21星]LongBio-Benchmark:一个用于评估长上下文语言模型的可控基准测试工具。亮点:1. 提供15种任务,覆盖理解、推理和可信生成能力;2. 可控配置,支持上下文长度、干扰密度等调节;3. 持续更新结果,支持多种模型测试】
'LongBio Benchmark: A controlled benchmark for Long-Context Language Models'
GitHub: github.com/Thomasyyj/LongBio-Benchmark
长文本模型 基准测试 自然语言处理 人工智能 ai兴趣创作计划