众力资讯网

X上都在传谷歌发布了全新压缩算法-TurboQuant,这项技术可以直接将LLM

X上都在传谷歌发布了全新压缩算法-TurboQuant,这项技术可以直接将LLM键值缓存内存减少6倍,但速度提升8倍,而且零精度损失,无需训练。所以,内存价格是要下来了了吗?