Xbench基准测试的背景与目标
1. 项目起源与发展
• 2022年底ChatGPT发布后启动,初期用于红杉中国内部模型评估
• 2023年建立首批私有题库,聚焦基础问答和逻辑能力
• 2024年10月升级为复杂问答推理及工具调用评估
• 2025年3月转向关注AI实际经济价值与能力追踪
2. 核心设计理念
• 强调业务场景的真实效用而非单纯技术难度
• 评估任务由领域专家设计,大学教授转化为指标
• 双轨体系兼顾技术上限(AGI Tracking)与商业价值(Profession Aligned)
Xbench的评估框架与机制
1. 双轨评估体系构成
• AGI Tracking线:包含科学问答(xbench-ScienceQA)和深度搜索(xbench-DeepSearch)
• Profession Aligned线:覆盖招聘、营销等垂直领域Agent评估
2. 长青评估机制特点
• 动态更新测试内容避免题目泄露失效
• 适应Agent产品快速迭代与环境变化
• 计划扩展至金融、法律等多领域动态评估
首期测试关键发现
1. 模型表现差异
• OpenAI o3综合表现最佳,GPT-4o因回答简短得分最低
• 模型尺寸非决定性因素(Gemini-2.5-Pro与Flash表现相近)
• DeepSeek R1因搜索适配性不足表现较弱
2. 业务场景需求
• 招聘领域侧重信息匹配与流程理解
• 营销领域强调创意生成与策略有效性