重大突破:曙光 scaleX640,国产 AI 集群的当前技术天花板 scaleX640 把“国产超节点”从 300 P 级推到 600 P 级,单柜密度和集群扩展性已和英伟达 DGX SuperPOD 处于同一量级;在“卡间互连带宽-功耗-可靠性”三大指标上拿到国内目前最好成绩,可视为国产 AI 集群的当前技术天花板。 一、技术水平 曙光 scaleX640 属于“单机柜级 640 卡”AI 超节点,目前官方给出的定位指标可归纳为三点: 1. 规模第一:一个 42U 机柜塞进 640 张加速卡,业内此前最高为 384 卡,密度直接提升 20 倍。 2. 性能翻倍:同样用 FP16/BF16 精度衡量,整机柜峰值算力 > 600 PFlops,比主流 384 节点(≈300 PFlops)高一倍。 3. 生态兼容:硬件层可插不同品牌国产卡,软件层兼容 CUDA、ROCm、CANN 等主流栈,支持万亿参数 MoE 大模型训练与高通量推理,长稳测试通过 30 天不间断验证。 二、应用场景 曙光 scaleX640 的核心定位是“单机柜 640 卡 AI 超节点”,官方给出的应用场景集中在三类高算力、高吞吐、高并行需求的前沿任务: 1. MoE 万亿参数大模型训练 - 单机柜即可提供 600 PFlops 以上 FP16/BF16 算力,支持千亿~万亿参数混合专家模型(MoE)的端到端训练,官方实测相比传统 384 卡集群可缩短 30–40% 训练时间。 2. 高通量在线推理与服务 - 通过机柜内超高速正交总线,640 卡构成统一通信域,可把单模型切片部署到 640 并行实例,实现毫秒级延迟、百万 QPS 级别的推理服务,适用于大模型 API 工厂、实时对话、搜索推荐等场景。 3. 科学智能(AI4S)计算 - 兼容 CUDA、ROCm、CANN 等主流科学计算栈,可替代传统 CPU 超算节点,用于蛋白质折叠预测、气象气候模拟、计算流体力学、量子化学等需要大规模张量运算的科研任务。 此外,scaleX640 采用开放架构,硬件可插不同品牌国产加速卡,软件支持主流框架,因此也适用于需要“多卡异构混部”的智算中心、政务云、行业私有云等“人工智能+”融合场景。
