为了更深入地理解LOCA为何能取得如此出色的性能,研究团队进行了一系列消融实验,即有选择地移除或修改网络中的特定组件,观察性能变化以评估各部分的重要性。 最关键的实验是检验对象原型提取(OPE)模块的作用。当移除全局注意力块时,MAE性能下降了12%,表明图像特征整合对于将同类物体在特征级别上拉近距离非常重要。而当完全移除OPE模块,直接从编码器图像特征中提取物体原型时,性能下降更为显著,达到34%的MAE下降。如果同时移除全局注意力和OPE,性能比原始LOCA下降约39%的MAE。这些结果清晰地表明了OPE模块的关键作用。 形状信息的重要性也得到了验证。研究人员构建了一个不使用形状查询的变体,结果导致25%的MAE降低。这证实了除了外观信息外,在OPE中考虑形状信息的重要性。同样,用可训练的查询替换从样本尺寸参数预测的形状查询,也导致了性能显著下降,相比原始LOCA出现了27%的MAE变化。这表明从样本尺寸参数中提取的形状特定显著性信息确实有助于物体定位和准确计数。 迭代适应模块中的第一个交叉注意力也被证明至关重要。当用简单的加法替换它时,MAE增加了5%,RMSE增加了22%,这表明第一个多头注意力不应被视为简单的匹配操作,而是通过样本形状信息调节原型构建过程,为每个样本最佳调整生成的原型,以准确定位目标物体。 迭代适应模块中的迭代次数L也是一个关键参数。实验表明,L=3提供了最佳性能,同时保持了较低的模型复杂度。这表明在原型适应过程中,过多的迭代可能会导致过度适应,而过少则无法充分融合形状和外观信息。 关于骨干网络和图像分辨率的实验也提供了宝贵见解。用ImageNet预训练的骨干网络替换SwAV预训练的骨干网络,只导致轻微的性能下降(8%的MAE和4%的RMSE)。将输入图像分辨率从512512降至384384像素,导致MAE和RMSE都下降了9%。改变原型空间大小s从3到1或5,也没有导致显著的性能下降。这些结果进一步证实,OPE模块的设计是LOCA优越性能的主要驱动因素,而不是这些参数选择。 模型监督策略的实验也很有启发性。避免对象计数归一化导致MAE性能下降11%。这表明对象计数归一化的好处,它对具有较多对象的图像施加更大的惩罚,强调具有高局部对象密度的困难案例。同样,移除辅助损失导致RMSE性能下降17%。这表明对OPE中各个迭代进行监督是有益的,因为它鼓励OPE模块在整个迭代过程中提供信息丰富的特征。 通过这些详细的消融研究,研究人员能够确认LOCA架构中每个组件的贡献,并验证形状信息和迭代适应过程对于精确物体计数的重要性。同时,这些实验也证明了LOCA架构的稳健性,即使在参数变化的情况下也能保持良好的性能。 展望未来,LOCA的研究团队提出了几个可能的研究方向。一种是引入负样本标注,以更好地指定所选物体类别。这可能导致更精确的交互式物体计数工具。另一个方向是通过使LOCA能够预测边界框或分割掩码,进一步缩小低样本计数器和目标检测器之间的差距,以输出关于被计数物体的附加统计信息,如平均大小等。这在许多实际应用中非常有用,例如生物医学分析。
为了更深入地理解LOCA为何能取得如此出色的性能,研究团队进行了一系列消融实验,
酸酸甜甜小苏
2025-06-12 21:54:05
0
阅读:0