重大突破：曙光 scaleX640，国产 AI 集群的当前技术天花板 scal

2025-11-07 16:41:17 有渔儿国际

重大突破：曙光 scaleX640，国产 AI 集群的当前技术天花板 scaleX640 把“国产超节点”从 300 P 级推到 600 P 级，单柜密度和集群扩展性已和英伟达 DGX SuperPOD 处于同一量级；在“卡间互连带宽-功耗-可靠性”三大指标上拿到国内目前最好成绩，可视为国产 AI 集群的当前技术天花板。一、技术水平曙光 scaleX640 属于“单机柜级 640 卡”AI 超节点，目前官方给出的定位指标可归纳为三点： 1. 规模第一：一个 42U 机柜塞进 640 张加速卡，业内此前最高为 384 卡，密度直接提升 20 倍。 2. 性能翻倍：同样用 FP16/BF16 精度衡量，整机柜峰值算力 > 600 PFlops，比主流 384 节点（≈300 PFlops）高一倍。 3. 生态兼容：硬件层可插不同品牌国产卡，软件层兼容 CUDA、ROCm、CANN 等主流栈，支持万亿参数 MoE 大模型训练与高通量推理，长稳测试通过 30 天不间断验证。二、应用场景曙光 scaleX640 的核心定位是“单机柜 640 卡 AI 超节点”，官方给出的应用场景集中在三类高算力、高吞吐、高并行需求的前沿任务： 1. MoE 万亿参数大模型训练 - 单机柜即可提供 600 PFlops 以上 FP16/BF16 算力，支持千亿～万亿参数混合专家模型（MoE）的端到端训练，官方实测相比传统 384 卡集群可缩短 30–40% 训练时间。 2. 高通量在线推理与服务 - 通过机柜内超高速正交总线，640 卡构成统一通信域，可把单模型切片部署到 640 并行实例，实现毫秒级延迟、百万 QPS 级别的推理服务，适用于大模型 API 工厂、实时对话、搜索推荐等场景。 3. 科学智能（AI4S）计算 - 兼容 CUDA、ROCm、CANN 等主流科学计算栈，可替代传统 CPU 超算节点，用于蛋白质折叠预测、气象气候模拟、计算流体力学、量子化学等需要大规模张量运算的科研任务。此外，scaleX640 采用开放架构，硬件可插不同品牌国产加速卡，软件支持主流框架，因此也适用于需要“多卡异构混部”的智算中心、政务云、行业私有云等“人工智能+”融合场景。