看了中信的讨论，有一点深有同感：过去两年行业过度关注GPU的TFLOPS，严重低

看了中信的讨论，有一点深有同感：过去两年行业过度关注GPU的TFLOPS，严重低估了CPU在AI集群中的控制价值。

我们在实际部署万卡规模集群时遇到的最大瓶颈，不是算力密度，而是调度效率和内存墙。大模型推理时，GPU显存溢出是常态——LLaMA 70B单纯用H100跑，8卡90GB显存都不一定够。NVIDIA的解决方案是用Grace CPU做共享内存池，通过高速链路把系统内存当显存用。这个思路在国产集群里同样需要，但问题是：谁来做这个CPU？

它必须满足三个条件：一是通用数据处理能力强，能跑各种控制面和数据预处理任务；二是生态兼容，现有AI框架和调度工具开箱即用；三是能与国产AI加速器高效互联。

从这个角度看，国内像海光的C86路线反而是务实的选择。x86生态的成熟度意味着不需要重新发明轮子——Kubernetes、TensorFlow、PyTorch的调度组件全是在x86上打磨出来的。与其推一套新指令集让整个软件栈重写，不如在兼容层上面长出自主能力。这不是保守，是工程现实。

中信研报里提到，亚马逊自研了Graviton ARM CPU，但AI服务器里照样用x86，原因一模一样。集群控制这件事，稳定性和生态压倒一切。

AI算力集群 CPU调度 x86架构

众力资讯网

看了中信的讨论，有一点深有同感：过去两年行业过度关注GPU的TFLOPS，严重低

热门分类