众力资讯网

【降低 CUDA 生态系依赖,DeepSeek 新模型获华为昇腾、寒武纪、海光支

【降低 CUDA 生态系依赖,DeepSeek 新模型获华为昇腾、寒武纪、海光支援】 DeepSeek 发表最新模型 DeepSeek-V3.2-Exp 之际,华为昇升腾(Ascend)芯片及其 CANN(Compute Architecture for Neural Networks)运算架构提供最佳化。 外媒据此认为,此举代表 DeepSeek 重心转移,确保先进模型能在中国制 AI 加速器运行,不再一味依赖 NVIDIA CUDA 生态系统。 随着 DeepSeek-V3.2-Exp 发表,华为昇腾团队及相关的 vLLM-Ascend 社群迅速整合新模型。在 vLLM-Ascend 的储存库中,新的项目概述昇腾 NPU 的自订安装步骤与内核封装,以支援新模型。CANN 团队也发表推理部署指南,使新模型能在华为芯片上部署。 其他中国芯片供应商也相继支援,包括寒武纪更新 vLLM-MLU 分支以相容 DeepSeek-V3.2-Exp,宣称其推理引擎与新模型的稀疏注意力机制结合,可降低长序列处理成本。海光也表示其 DCU 加速器透过 DTK 软体堆迭进行调校,可做到「零等待」(zero-wait)部署。 同时,推理框架 SGLang 确认 DeepSeek-V3.2-Exp 可支援多种后端(包含升腾在内),而 DeepSeek 在 GitHub 的说明则暗示,新模型推出时可达到与 vLLM 相当的相容性。DeepSeek 也提及高阶语言 TileLang 与 CUDA 内核,并建议研究人员开发原型时以 TileLang 为主。实际上,这意味着同一个模型档案经过少量调整,就能在 NVIDIA GPU 与中国加速器之间部署。 外媒评论认为,此一采用速度之快,凸显中国 AI 生态系正在为无法理所当然取得 NNVIDIA 硬件未来做准备。虽然 NVIDIA 的 CUDA 在训练与推理领域保持主导地位,但 DeepSeek 最新版本是少数中国公司在发表首日即为非 CUDA 软体堆叠提供最佳化的产品。