这篇文章写得非常好,直接点明了罗福莉给小米的真正价值
1.一针见血,看透核心问题的能力
比如算力分配应该是 3:1:1
在解决 MOE 专家模型的路由问题上,投入最多的计算卡,投入训练阶段 3 倍的卡,防止 1T 以上的超大参数量导致崩溃
在过去大家深耕的预训练和后训练阶段,反而投入较少的卡,因为这些东西都已经到头了,甚至包括强化学习
2.小米通过挖这个关键人,拿到了 Deepseek 先进的组织方式
扁平化,跨职能,超高的人才密度……

这篇文章写得非常好,直接点明了罗福莉给小米的真正价值
1.一针见血,看透核心问题的能力
比如算力分配应该是 3:1:1
在解决 MOE 专家模型的路由问题上,投入最多的计算卡,投入训练阶段 3 倍的卡,防止 1T 以上的超大参数量导致崩溃
在过去大家深耕的预训练和后训练阶段,反而投入较少的卡,因为这些东西都已经到头了,甚至包括强化学习
2.小米通过挖这个关键人,拿到了 Deepseek 先进的组织方式
扁平化,跨职能,超高的人才密度……

评论列表