🧠对于许多人工智能工作流程,内存正成为主要的瓶颈,而非计算能力。 这种新的

JavaEdge聊AIss 2025-09-13 15:33:38

🧠 对于许多人工智能工作流程,内存正成为主要的瓶颈,而非计算能力。 这种新的 XQuant 方法宣称: - 相比 FP16,内存节省 10-12.5 倍 - 几乎零精度损失 - 击败最先进的键值量化技术🔥 现代人工智能中缓慢且昂贵的部分是移动、存储和重用字节,而不是原始浮点运算。大型语言模型解码主要受权重传输和不断增长的键值缓存的限制,因此吞吐量与内存带宽和容量密切相关。 XQuant:通过键值缓存重计算打破大型语言模型推理的内存壁垒 主要提议: - 键值缓存的开销随上下文长度和批次线性增加,成为瓶颈。 - GPU 上的浮点运算速度远超其内存吞吐量。 - 因此,与其将键值保存在内存中,不如重新计算。 在长序列中,键值缓存(存储过去标记的键和值)占据主要内存,并且每一步都需要移动,这限制了带宽。 XQuant 将每层的输入激活 X 以低位存储,然后在解码时使用常规投影重新计算键和值。 这一单一变化使内存使用量相比缓存键和值减少了 2 倍,同时精度损失很小。 这之所以有效,是因为 X 量化效果良好,且 GPU 的计算速度超过内存带宽,因此额外的乘法运算是一个合理的权衡。 XQuant-CL 更进一步,仅存储 X 中每层的小型增量,利用残差流使相邻层保持相似。 通过这种方式,论文报告称内存节省高达 10 倍,困惑度下降约 0.01;12.5 倍时下降约 0.1。 结合分组查询注意力机制,他们对权重矩阵应用奇异值分解,将 X 缓存到较低维度,然后重建键和值。 尽管使用简单的均匀量化,结果接近 FP16 精度,并且在相同内存占用下击败了更复杂的键值量化器。 净效果是每个标记的内存读取量减少,额外计算量适中,长时间上下文服务更顺畅。 知识分享 每天跟我涨知识 干货

0 阅读:1
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注