总结了一下,这次核心升级点主要有三个方向:
1⃣️Coding能力显著提升。 豆包2.1 Pro在多个硬核评测集上进入全球第一梯队,Terminal Bench与Claude Opus 4.7持平,SciCode超过Claude Opus 4.7和GPT-5.5,NL2Repo-Bench明显领先GPT-5.5和Gemini 3.1 Pro。芯片设计RTL这种高难度工程场景也能胜任,说明模型已经具备真实工程交付能力。
2⃣️Agent能力大幅增强。 在GDPval真实世界经济价值任务评测上拿到国内第一,MCP-Atlas全面超过Opus4.7和GPT 5.5。有开发者用它调度500多个Agent协同作业,调用十余种工具完成了上百栋建筑的3D城市构建,工具调用和长链路协作能力可见一斑。
3⃣️VLM多模态能力持续领先。 OSWorld和MobileWorld移动端拿下全球SOTA,WorldVQA全面超过GPT-5.5和Claude Opus 4.7。演示中模型可以吃进两个多小时长视频,自动完成解说稿生成、精准定位、拼接、配乐、加字幕的全流程,多模态理解能力确实能打。
最后说一下价格,豆包2.1 Pro百万tokens输入6元、输出30元,缓存命中只要1.2元,成本比Claude低近80%。还有更便宜的Turbo版,价格直接砍半,这谁不得说一句真香啊。
不得不说,这次字节火山引擎是出硬货了,豆包2.1大模型确实很能打,不知道后续国内各家大厂是不是进一步卷起来了。


