Easy同学正在独立开发 我还没用上Kimi K2T ,不过最近 GLM4.6 用得不错。大模型这个东西的效果,如果看跑分和测评,可能最终和自己用起来差异很大。
因为使用场景、提示词甚至语种都会对最终结果产生很大的影响。有的模型写前端好,有的模型写后端好。写小语种语言比如 dart 各个版本效果都要看运气。甚至我明显感受到,语文好的人、条理清晰的人,使用大模型的效果要明显好一些。
上下文工程更是影响巨大,同样的模型,不同的 IDE 做出来智商差异天差地别。这里就不用 Trae 举例了 [doge]
最简单的办法还是建立自己的测试场景库,每出一波新模型就跑一遍,然后就知道哪些对自己最合适了。
