数字中国曙光展台那个人山人海,全冲着scaleX640超节点去的。
我挤进去看了一下实物,说实话比参数表震撼。一个机柜塞640张卡,液冷管道密布但布线和物理布局极其紧凑。现场工程师说,这玩意儿的核心思路不是什么黑科技,而是“系统工程化”——把算力、存储、网络、供电、散热当成一个整体去紧耦合设计,而不是东拼西凑。
跑万亿参数MoE大模型,性能提升30%-40%这个数字我一开始是怀疑的,但看了他们的互联架构方案就理解了。640卡在一个柜子内超高速总线直连,不需要跨柜拉线,通信时延直接砍掉一个数量级。而MoE模型最怕的就是专家并行时的通信瓶颈。
这不叫堆料,这叫解题。中科曙光
