估计大家看到了,某个公司宣布开源了自己大模型。看上去大家云里雾里的,我给大家说明一下。
先看图,这个公司推出的大模型呢,和他发布会一样是很多定语的。它只在数学推理和代码竞赛方面表现优异。这是个什么意思呢?

在大模型领域,有个技术叫“模型蒸馏”。什么意思呢?就是把一些开源的大型复杂模型的知识高效迁移到小型高效模型中。直白一点说,大型复杂模型叫老师模型,是很全能的,它在各个方面的能力都很突出。但是这个小型高效模型叫学生模型,它模型老师的输出,只训练某个方面的能力。
然后我们就发现,这个世界的大模型其实分为两类。第一类是基座型大模型。这一种大模型参数量庞大、训练数据广泛、任务泛化能力强。说白了,这种大模型是全能的,全场景适用的,不是偏科的。这些基本需要顶级大公司长期的培育和大投入才行,比如阿里的通义千问、华为的盘古大模型等。

第二类就是很多蒸馏型大模型。这类蒸馏型大模型有个好处,就是成本低廉,能在某些方面专精。说白了就是完全偏科,老师模型是琴棋书画样样精通,但是学生型可能只会画画,但是这些蒸馏模型比较简单,所以在一些特定场景的能力上会有轻装上阵的优势。严格意义上说,这个DeepSeek早期就是蒸馏型大模型,DeepSeek早期蒸馏6个模型,其中有4个是阿里的,两个是谷歌的。
这种蒸馏型大模型的成本有多低呢?在2025年初,斯坦福教授李飞飞以50美元的成本,蒸馏提炼谷歌的模型,又以阿里模型为基座,成功训练出世界一流模型。也就是说,一个做蒸馏大模型的企业就是另一个版本的拿来主义。它们做出来的所谓大模型一般只能赢老版本或者阉割版本,而没办法和基座型大模型的旗舰模型匹敌。

就比如,阿里在2025年4月发布了Qwen3系列,新增了8个开源版本,持续强化数学、代码等专项能力。而这个公司现在展示的是它的模型只是超越了Qwen2.5的版本。而且OpenAI01-mini版本也是OpenAI满血版本蒸馏出来的只需要推理不需要广泛世界知识的应用。也就是说,这个OpenAI01-mini版本其实优势不在数学推理和代码竞赛。
通过以上分析,我们知道了,这个公司的大模型说白了,应该是把阿里通义千问和DeepSeek的开源大模型拿来蒸馏提炼以后的产物。然后这个公司去学了画画,然后现在把数据摆出来,说我现在的画画能力比老师婴儿时期的能力强,我现在画画能力比一个只会弹琴的人的强。这本质上也是一种神奇的对比法则。
所以,我就一直强调一件事,这家公司的营销是无敌的!用各种神奇的对比法则来彰显自己的能力,说好听是营销,说不好听其实就是骗人!