众力资讯网

英伟达颠覆语言模型生成范式:一次并行多 token,还能“边画边改”,推理速度与

英伟达颠覆语言模型生成范式:一次并行多 token,还能“边画边改”,推理速度与 GPU 利用率迎来飞跃!

英伟达发布Nemotron-Labs-Diffusion系列扩散语言模型(Diffusion Language Models)。不同于大多数语言模型逐个 token 自回归生成,该系列采用扩散机制,在单次前向传播中并行生成多个 token;模型不会“一锤定音”,而是允许在生成过程中不断修订,从而实现更快推理,并更好地利用现代 GPU 的并行计算能力。模型家族覆盖 3B 到 14B 参数规模,包含纯文本基础/指令版以及视觉-语言(VLM)变体,已在 Hugging Face 上开放。