Snowflake 团队的这个测试和我的体感是接近的：- “GLM 需要更多轮次

Snowflake 团队的这个测试和我的体感是接近的：

- “GLM 需要更多轮次” — ✅ 已确认

GLM 平均 99 轮 vs Opus 的 80 轮。40 vs 29 个执行式调用/试验。

- “GLM 使用了 2 倍的令牌” — ✅ 已确认

860M vs 439M 计费tokens。更多轮次 + 原子 API 调用 + 更低的提示缓存重用率（53% vs 96%）。

- GLM 验证得更多” — ✅ 部分确认

但它的原子化方式不同。GLM 为每个检查触发一个 sql_execute。Opus 将相同的检查批量处理成更少的 dbt show --inline 调用。覆盖范围相同，形状不同。

- “GLM 生成更干净的代码” — ❌ 不支持

Pass低了 6 个百分点。更多的验证 ≠ 更正确。

链接：x.com/RamaswmySridhar/status/2069460464371954171

阅读：0 点赞：0

众力资讯网