原来中国AI是这么追上来的，不是蒸馏，现在中国AI用海量编程样本学习进步自我迭代

原来中国AI是这么追上来的，不是蒸馏，现在中国AI用海量编程样本学习进步自我迭代了

最近美国人很着急，中国AI不断取得进步。GLM5.2指标据说超过了Gemini，追平Claude Opus 4.8，还放话今年就要追平Claude Fable。DeepSeek又开源了一个大招DSpark，大幅加速推理，底层原创成果一个接一个。Kimi三季度要发布K3，大版本升级，2.52万亿参数，原生多模态、百万字上下文。

不久前，我曾经担心美国AI进步比中国更快，据说AI编程改自己的代码，迭代改进加速，而中国AI受算力限制进步速度缓下来。现在感觉情况反过来了，中国AI找到了加速发展的办法，而美国AI反而被算力卡了。美国训练不缺算力，但这是硬堆卡，用户多的推理就很缺算力了。而且美国AI用的高成本方案，搞Dense模型，不注意优化，结果是业界抱怨token太贵，纷纷转向中国便宜的开源AI，惊喜地发现还挺不错。

最关键的，还是中国AI找到了突破的办法。现在业界有共识了，AI编程已经卡不住中国AI了，是一个已经解决的问题。

美国一个哥们介绍说，这个大招是，先找几十万例的编程代码，这容易。这些案例是人类编写跑通的，网上开源的到处是，算是正确的编程样本。然后做一个小模型，专门“干坏事”，往里加bug，这也不难。训练目标，就是中国大模型，学会改bug。如果把bug都修好了，这肯定就编程无所不精了，算通关了，bug并不容易改。

美国人说中国AI“蒸馏”，这是一种常见技术，Knowledge Distillation，十几年前就有的。这是说中国公司向美国AI提出上千万个问题，然后训练自己的大模型，模仿美国AI输出的答案（不是token序列，需要是概率分布），模仿好了就把美国AI的能力学会了。这其实是一种落后技术，根本没法学会，因为现在大模型输出过程很复杂，先要内部思考，要搜索，要Agent，最终输出只是一个综合结果，意义下降了。

现在的学习，不是这么简单地模仿答案。而是把高水平AI的思考过程，解决问题的序列都记下来。图中说方法，对应的是“数据提取 + 行为克隆 + RL”。Data Distillation、Capability Distillation、Behavior Cloning，关注的是行为轨迹。

最后一步是，RL强化学习。生成了几十万个实际编程的bug样例，然后让AI去学习摸索改正，结果是True或者False，就能训练成功。这类似DeepSeek R1的简单优雅的AI自学习办法，编程也能这么干了。所以编程进步变得简单了。

但这里需要一个SFT训练“冷启动”，如果大模型没有足够强的基础能力，这么去试着改bug，训练不会成功。美国AI能提供SFT的训练数据，帮助中国AI获得基础能力。

关键是，这个框架比蒸馏要强大！蒸馏学习是不可能比教师模型要强的，多半是弱不少。而SFT获得的基础能力之后，可以通过RL，比生成SFT训练样本的美国AI还强大！

因此，美国AI只是起了一些“历史作用”，帮助生成了一些训练数据。等中国AI突破了，就可以自己来循环迭代了，不需要再去参与美国AI了（除非美国AI又进步极大，中国AI自学无法突破）。即使中国AI不再用美国AI生成训练数据，也能继续进步。

众力资讯网

原来中国AI是这么追上来的，不是蒸馏，现在中国AI用海量编程样本学习进步自我迭代

热门分类

原来中国AI是这么追上来的，不是蒸馏，现在中国AI用海量编程样本学习进步自我迭代

猜你喜欢

任泽平赴美考察后提醒：AI不是风口，是海啸——从美国回来，我看到的却是另一种危险

AI编程这么厉害，为什么不下班前提交需求给AI，第二天回来给AIReview代

凌晨，英伟达股东大会，老黄一句话，把全球AI投资圈的心魔撕了个粉碎“关于AI

现在的AI开发，已经不是程序员在做了😳

一个外国程序员对中国AI的中肯评价，在X上火了。来看下他的原帖大意：

确实是公务员最好的时代哈哈哈，没有AI焦虑，能占到AI便宜

一位性学家说了一句挺让人后背发凉的话。AI女性机器人，只要做到能解决男性的生理需

热门分类