在SAFE算法创新的碎片图架构基础上,开发团队面临着一个重要挑战:如何高效实现数百个碎片节点的训练和推理?毕竟,为每个碎片训练一个完整的深度学习模型会导致存储和计算资源的巨大浪费。 InCA适配器的工作原理相对直观。假设我们有一个冻结的预训练视觉编码器,它将输入图像x转换为激活图z。InCA适配器通过交叉注意力机制,使用一组可学习的特定于类的查询标记q与激活图z交互,产生输出y作为预测结果。这种设计的妙处在于,适配器的参数数量远少于主干网络,同时保留了主干网络的强大特征提取能力。 值得一提的是InCA适配器的可组合性特性。如果我们将不同适配器的查询标记拼接在一起,那么拼接后的输出等同于各个适配器输出的拼接。这一特性使得我们可以在训练时分别训练各个节点特定的查询标记,而在推理时将它们组合起来,实现高效的集成模型。 在实际实现中,SAFE团队对原始InCA架构进行了一些修改,使其更适合机器遗忘任务。具体来说,他们冻结了交叉注意力层的权重,这些权重在所有节点之间共享,同时只训练与每个节点相关的查询标记。这种方法不仅减少了训练参数的数量,还防止了信息在不同碎片之间的泄漏。 为了进一步提高效率,SAFE采用了一系列技术优化。例如,由于交叉熵损失函数下不同查询标记的梯度是独立的,所以可以在单个训练周期中同时训练所有查询标记,只需适当屏蔽损失函数,防止未连接碎片的信息影响到查询标记。此外,由于InCA不通过主干网络反向传播,可以预先计算并存储激活图z,从而进一步减少计算开销。 通过这些优化,SAFE能够在单个GPU上同时训练数百个碎片,整个过程不到10分钟。这是传统方法无法实现的高效率。 尽管使用轻量级适配器可能会降低模型准确率,但研究团队发现,当选择的主干网络与用户数据良好匹配时,准确率损失几乎可以忽略不计,而且这部分损失被遗忘成本的巨大降低所抵消。 除了InCA适配器外,SAFE还整合了基于原型的分类器作为辅助。这种分类器计算每个类别的平均特征(原型),然后基于余弦距离进行分类。原型分类器的优势在于它允许即时遗忘:要删除训练样本的影响,只需从其类别原型中移除该样本的贡献即可。 虽然原型分类器的分类准确率通常不如训练的分类器,但在数据非常稀疏的情况下,它可以提供有用的归纳偏置。考虑到添加原型分类器的计算和空间复杂度几乎可以忽略不计,SAFE将其与基于适配器的模型结合起来,形成最终的预测模型。
在SAFE算法创新的碎片图架构基础上,开发团队面临着一个重要挑战:如何高效实现数
酸酸甜甜小苏
2025-06-13 01:46:26
0
阅读:0