众力资讯网

自回归生成时，每个token都要从内存搬运模型权重，GPU算力大量空转，利用率常

2026-06-28 09:01:31 小茜Daisy 科技

自回归生成时，每个token都要从内存搬运模型权重，GPU算力大量空转，利用率常低于30%。推测解码让草稿模型先猜多个候选token，主模型一次性并行验证，把内存带宽瓶颈转为计算吞吐。实测RTX 5090上，Gemma4提速23%，服务器部署加速比可达2–3倍。这就是用内存带宽换算力，让推理从带宽受限重回计算密集。推测解码是内存带宽换算力

阅读：1 点赞：0

自回归生成时，每个token都要从内存搬运模型权重，GPU算力大量空转，利用率常

热门分类