众力资讯网

自回归生成时,每个token都要从内存搬运模型权重,GPU算力大量空转,利用率常

自回归生成时,每个token都要从内存搬运模型权重,GPU算力大量空转,利用率常低于30%。推测解码让草稿模型先猜多个候选token,主模型一次性并行验证,把内存带宽瓶颈转为计算吞吐。实测RTX 5090上,Gemma4提速23%,服务器部署加速比可达2–3倍。这就是用内存带宽换算力,让推理从带宽受限重回计算密集。 推测解码是内存带宽换算力