【[21星]LongBio-Benchmark：一个用于评估长上下文语言模型的可

爱生活爱珂珂 2025-06-27 14:25:06

【[21星]LongBio-Benchmark：一个用于评估长上下文语言模型的可控基准测试工具。亮点：1. 提供15种任务，覆盖理解、推理和可信生成能力；2. 可控配置，支持上下文长度、干扰密度等调节；3. 持续更新结果，支持多种模型测试】

'LongBio Benchmark: A controlled benchmark for Long-Context Language Models'

GitHub: github.com/Thomasyyj/LongBio-Benchmark

长文本模型基准测试自然语言处理人工智能 ai兴趣创作计划

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[40星]SalesforceAIResearch/MAS-Zero：无需监督

2

Andrej Karpathy基于个人使用体验，对当前 ChatGPT 各版本的

3

从去年至今，Google在AI领域的追赶可谓步伐迅猛，几乎每个月都有新的模型或产

4

【Hugging Face MCP Course：免费的在线课程，旨在帮助从初学

5

早！[太阳] 早安

6

晚安～ [月亮] 晚安

7

【[1.3k星]CAP：一种现代、轻量的开源CAPTCHA替代方案，使用SHA-

8

【[498星]Happy-LLM：从零开始的大语言模型原理与实践教程，带你深入探

9

【[278星]Awesome Prompt Injection：专注于机器学习模

10

【[1.2k星]true-myth：为TypeScript开发者提供安全、易用的

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

小米又搞大动作啦！6月24日雷军透露小米YU7支持车外小爱语音。车外配备8个麦克

3

一图解读：十款手机配置，各显神通，你更喜欢哪款？

4

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

5

618手机大促，国产手机超值优惠，等你来！

6

4K手机推荐指南，零差评体验！

7

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

8

关于华为Pura80全系芯片的真机实测已经出来了，确认为Mate70同款的麒麟9

9

看来Mate系列才是真旗舰，昨天发布的Pura80系列虽然影像牛的不行，但有一点

10

左边是我花了5499国补价买到的iPhone16Pro，右边是苹果直营店里

科技最新文章

1

三款红米K80系列怎么选？详细对比+建议购买建议：✘红米K80至尊版屏幕更

2

先来大胆预测一下荣耀MagicV5的价格12G+256G，8999元16G

3

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

4

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

5

说真的哈，华为海外市场丢失，并非完全因为美国联合全球很多国家禁售华为手机。实

6

小屏党的春天来了，华为Mate80系列或推小屏版！之前有不少友问，华为Mat

7

雷军展示自己从北京开车到上海！就在刚才，雷军终于把去年他开着小米YU7从北京

8

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

9

华为的新折叠屏pocket2优享版，应该是处理器用麒麟9020系列，

10

赵明离职之后，荣耀确实变天了先是荣耀400系列的产品力领先华为nova14系列