看了中信的讨论,有一点深有同感:过去两年行业过度关注GPU的TFLOPS,严重低估了CPU在AI集群中的控制价值。
我们在实际部署万卡规模集群时遇到的最大瓶颈,不是算力密度,而是调度效率和内存墙。大模型推理时,GPU显存溢出是常态——LLaMA 70B单纯用H100跑,8卡90GB显存都不一定够。NVIDIA的解决方案是用Grace CPU做共享内存池,通过高速链路把系统内存当显存用。这个思路在国产集群里同样需要,但问题是:谁来做这个CPU?
它必须满足三个条件:一是通用数据处理能力强,能跑各种控制面和数据预处理任务;二是生态兼容,现有AI框架和调度工具开箱即用;三是能与国产AI加速器高效互联。
从这个角度看,国内像海光的C86路线反而是务实的选择。x86生态的成熟度意味着不需要重新发明轮子——Kubernetes、TensorFlow、PyTorch的调度组件全是在x86上打磨出来的。与其推一套新指令集让整个软件栈重写,不如在兼容层上面长出自主能力。这不是保守,是工程现实。
中信研报里提到,亚马逊自研了Graviton ARM CPU,但AI服务器里照样用x86,原因一模一样。集群控制这件事,稳定性和生态压倒一切。
AI算力集群 CPU调度 x86架构
