SparseLoCo:面向大规模语言模型(LLM)预训练的通信高效算法,革新了分

爱生活爱珂珂 2025-08-25 07:47:28

SparseLoCo:面向大规模语言模型(LLM)预训练的通信高效算法,革新了分布式训练中的通信瓶颈问题。

• 结合Top-k稀疏化与误差反馈(Error Feedback),用局部外部动量的近似替代传统全局动量,实现极端压缩率(稀疏度1%-3%,2-bit量化)。

• 相较于DiLoCo和DeMo,SparseLoCo在减少通信量的同时提升最终模型性能,且支持自适应优化器AdamW的高效内循环。

• 采用分块Top-k策略,降低索引传输成本,提升压缩效率,且便于与张量并行及FSDP等技术结合。

• 实验覆盖不同通信间隔(H=15到250),SparseLoCo均表现出更优的损失函数收敛,且在通信-性能权衡上达到了Pareto前沿。

• 在真实互联网环境下部署验证,支持无许可的全球协作训练,上传带宽需求低,下载依赖云服务快速分发,通信延迟显著低于传统方案。

• 设计细节包括局部外动量的分布式近似、误差反馈与量化的协同作用,避免了全局动量与误差反馈冲突导致的性能下降。

SparseLoCo为跨数据中心及全球分布式LLM预训练提供了通信效率和训练性能的双重突破,推动了大模型训练的可扩展性和实用性。

详细信息👉 arxiv.org/abs/2508.15706

大规模语言模型 分布式训练 通信效率 稀疏化 误差反馈 模型预训练

0 阅读:1
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注