英伟达颠覆语言模型生成范式：一次并行多 token，还能“边画边改”，推理速度与

2026-05-20 09:48:16 智研未来科技

英伟达颠覆语言模型生成范式：一次并行多 token，还能“边画边改”，推理速度与 GPU 利用率迎来飞跃！

英伟达发布Nemotron-Labs-Diffusion系列扩散语言模型（Diffusion Language Models）。不同于大多数语言模型逐个 token 自回归生成，该系列采用扩散机制，在单次前向传播中并行生成多个 token；模型不会“一锤定音”，而是允许在生成过程中不断修订，从而实现更快推理，并更好地利用现代 GPU 的并行计算能力。模型家族覆盖 3B 到 14B 参数规模，包含纯文本基础/指令版以及视觉-语言（VLM）变体，已在 Hugging Face 上开放。