Xbench双轨评估体系解析
Xbench 基准测试工具的结构化梳理
01. 项目背景与演变
1.1 项目启动:2022年底由红杉中国内部发起,用于跟踪基础模型能力,2025年5月对外公开。
1.2 题库迭代:
• 2023年:聚焦LLM基础问答和逻辑能力。
• 2024年10月:升级为复杂推理及工具调用测评。
• 2025年3月:转向评估AI实际经济价值,质疑单纯难度提升的意义。
02. 核心设计理念
2.1 双轨评估体系:
• AGI Tracking:测试技术上限(如科学问答、深度搜索)。
• Profession Aligned:量化商业场景效能(如招聘、营销)。
2.2 长青评估机制:动态更新题目,避免静态集过时,确保结果时效性。
03. 评估