Snowflake 团队的这个测试和我的体感是接近的:
- “GLM 需要更多轮次” — ✅ 已确认
GLM 平均 99 轮 vs Opus 的 80 轮。40 vs 29 个执行式调用/试验。
- “GLM 使用了 2 倍的令牌” — ✅ 已确认
860M vs 439M 计费tokens。更多轮次 + 原子 API 调用 + 更低的提示缓存重用率(53% vs 96%)。
- GLM 验证得更多” — ✅ 部分确认
但它的原子化方式不同。GLM 为每个检查触发一个 sql_execute。Opus 将相同的检查批量处理成更少的 dbt show --inline 调用。覆盖范围相同,形状不同。
- “GLM 生成更干净的代码” — ❌ 不支持
Pass低了 6 个百分点。更多的验证 ≠ 更正确。
链接:x.com/RamaswmySridhar/status/2069460464371954171

