🧠 对于许多人工智能工作流程，内存正成为主要的瓶颈，而非计算能力。这种新的

🧠 对于许多人工智能工作流程，内存正成为主要的瓶颈，而非计算能力。这种新的 XQuant 方法宣称： - 相比 FP16，内存节省 10-12.5 倍 - 几乎零精度损失 - 击败最先进的键值量化技术🔥 现代人工智能中缓慢且昂贵的部分是移动、存储和重用字节，而不是原始浮点运算。大型语言模型解码主要受权重传输和不断增长的键值缓存的限制，因此吞吐量与内存带宽和容量密切相关。 XQuant：通过键值缓存重计算打破大型语言模型推理的内存壁垒主要提议： - 键值缓存的开销随上下文长度和批次线性增加，成为瓶颈。 - GPU 上的浮点运算速度远超其内存吞吐量。 - 因此，与其将键值保存在内存中，不如重新计算。在长序列中，键值缓存（存储过去标记的键和值）占据主要内存，并且每一步都需要移动，这限制了带宽。 XQuant 将每层的输入激活 X 以低位存储，然后在解码时使用常规投影重新计算键和值。这一单一变化使内存使用量相比缓存键和值减少了 2 倍，同时精度损失很小。这之所以有效，是因为 X 量化效果良好，且 GPU 的计算速度超过内存带宽，因此额外的乘法运算是一个合理的权衡。 XQuant-CL 更进一步，仅存储 X 中每层的小型增量，利用残差流使相邻层保持相似。通过这种方式，论文报告称内存节省高达 10 倍，困惑度下降约 0.01；12.5 倍时下降约 0.1。结合分组查询注意力机制，他们对权重矩阵应用奇异值分解，将 X 缓存到较低维度，然后重建键和值。尽管使用简单的均匀量化，结果接近 FP16 精度，并且在相同内存占用下击败了更复杂的键值量化器。净效果是每个标记的内存读取量减少，额外计算量适中，长时间上下文服务更顺畅。知识分享每天跟我涨知识干货

众力资讯网

🧠 对于许多人工智能工作流程，内存正成为主要的瓶颈，而非计算能力。这种新的

热门分类

🧠 对于许多人工智能工作流程，内存正成为主要的瓶颈，而非计算能力。 这种新的

热门分类

🧠 对于许多人工智能工作流程，内存正成为主要的瓶颈，而非计算能力。这种新的