【降低 CUDA 生态系依赖，DeepSeek 新模型获华为昇腾、寒武纪、海光支

【降低 CUDA 生态系依赖，DeepSeek 新模型获华为昇腾、寒武纪、海光支援】 DeepSeek 发表最新模型 DeepSeek-V3.2-Exp 之际，华为昇升腾（Ascend）芯片及其 CANN（Compute Architecture for Neural Networks）运算架构提供最佳化。外媒据此认为，此举代表 DeepSeek 重心转移，确保先进模型能在中国制 AI 加速器运行，不再一味依赖 NVIDIA CUDA 生态系统。随着 DeepSeek-V3.2-Exp 发表，华为昇腾团队及相关的 vLLM-Ascend 社群迅速整合新模型。在 vLLM-Ascend 的储存库中，新的项目概述昇腾 NPU 的自订安装步骤与内核封装，以支援新模型。CANN 团队也发表推理部署指南，使新模型能在华为芯片上部署。其他中国芯片供应商也相继支援，包括寒武纪更新 vLLM-MLU 分支以相容 DeepSeek-V3.2-Exp，宣称其推理引擎与新模型的稀疏注意力机制结合，可降低长序列处理成本。海光也表示其 DCU 加速器透过 DTK 软体堆迭进行调校，可做到「零等待」（zero-wait）部署。同时，推理框架 SGLang 确认 DeepSeek-V3.2-Exp 可支援多种后端（包含升腾在内），而 DeepSeek 在 GitHub 的说明则暗示，新模型推出时可达到与 vLLM 相当的相容性。DeepSeek 也提及高阶语言 TileLang 与 CUDA 内核，并建议研究人员开发原型时以 TileLang 为主。实际上，这意味着同一个模型档案经过少量调整，就能在 NVIDIA GPU 与中国加速器之间部署。外媒评论认为，此一采用速度之快，凸显中国 AI 生态系正在为无法理所当然取得 NNVIDIA 硬件未来做准备。虽然 NVIDIA 的 CUDA 在训练与推理领域保持主导地位，但 DeepSeek 最新版本是少数中国公司在发表首日即为非 CUDA 软体堆叠提供最佳化的产品。

众力资讯网

【降低 CUDA 生态系依赖，DeepSeek 新模型获华为昇腾、寒武纪、海光支

热门分类