国产大模型形势一片大好美国大模型出了什么问题？美国人都感觉不对劲了1. 最近学习

国产大模型形势一片大好美国大模型出了什么问题？美国人都感觉不对劲了

1. 最近学习了大模型技术路线，很有意思。中国和美国技术路线差异很大，针尖对麦芒了。这事影响极大，几乎是全球经济最大看点之一了，大模型到底要怎么发展，AI泡沫怎么回事。

2. 美国大模型很贵，顶级大模型输出百万Token要30-50美元。跑个任务1亿token常见，好几千美元没了，财大气粗的美国公司都纷纷收紧权限。中国头部大模型最贵的也只有美国五分之一，便宜的二十分之一，已经成为现实经济选择，海外业界在考虑常规使用了。如用中国大模型生成海量代码，让美国大模型review。

3. 美国东西卖得贵，一般觉得是品牌价值，苹果手机等产品净利润率高。但token卖天价还是赔本卖，确实成本比中国token高得多。有点类似德国坦克性能好但成本贵，苏联T34成本低海量生产，最后消灭了德国。现在美国业界、资本市场觉得不太对劲了，开始认真评估中美大模型路线的成本差异。图一是KOL发现中国大模型性能接近但只有1/7到1/10的价格，要是DeepSeek V4价格不到百分之一。图二瑞银报告，对比中国与美国大模型在训练和推理两个维度的效率差异。图三是中美模型性能差距，中国用更少算力、更低成本、更小参数规模，快速逼近美国前沿模型水平。

4. 这事不是中国人在忽悠，是美国人自己发现不对劲了。中国人只是不断开源、打榜、给出低价，别的宣传并不多。美国人就一堆炒作，性能太强不敢公布、禁止外国人用、人类危险。这回是真出问题，美国人AI故事出现漏洞了，在想为什么。

5. 美国大模型成本高，完全可以从技术上解释。Claude连MoE都不用，Dense架构推理时激活全部参数（MoE只激活几十分之一的参数），成本更高、但输出稳定性更强。但美国别家还是用MoE的，但技术路线和中国最大区别是“稀疏注意力”。中国几家全有DeepSeek Sparse Attention（DSA）这样的注意力机制绝活，每家都有发明，特点是稀疏。原始注意力机制，n个token，要互相建立n*n个注意力，到100万上下文，代价高得惊人，光这一个矩阵就要1万亿个单元，是存储爆炸的关键因素。中国公司全都极致优化，不重要的注意力不要了，最后是O(n)级别的注意力，存储需求下降了几十倍。这会有点性能下降，但可以接受，带来的成本优势很大。还有别的多个优化大招，图二总结了。

6. 现在情况是，美国大模型存储需求爆炸了，而存储公司乐得赚钱不愿意扩产。虽然存储股大涨，但这对AI行业整体发展是不利的。随便一算就知道各家公司肯定受不了，所谓的“KV cache”需求会多到爆炸。唯一的选择就是模仿中国走存储需求低的“稀疏注意力”路线。当然不是抄中国的，各家会有自己选择。

7. 美国大模型之前一直用Dense Attention，是因为财大气粗，说Sparse降性能不用。缺卡买卡、缺内存加价买内存，还抢上了，英伟达和三星、海力士成了最大受益者。但现在七巨头都觉得钱不够了，业界正发现，美国大模型走错路了，要改到稀疏路线。必须接受一些性能下降，不然太贵卖不动，商业模式会崩。但这个方向，美国就没什么优势了，等于和中国比谁生产便宜，搞成这样不能看好了。