LOCA(低样本目标计数网络与迭代原型适应)是一种新型的低样本计数方法,它克服了现有方法的局限性。LOCA的核心创新在于引入了一个新的对象原型提取模块(OPE),该模块分别提取样本的形状和外观信息,并将它们融合到一起,形成更强大的物体原型。 LOCA的整体架构包括四个步骤:图像特征提取(编码器)、对象原型提取、原型匹配和密度回归(解码器)。输入图像首先被调整为512512像素,然后由ResNet-50骨干网络编码。从第二、第三和第四块中提取多尺度特征,调整为相同大小,并减少到256个通道。全局自注意力块用于进一步整合编码特征并增加同类物体之间的相似性。 对象原型提取模块(OPE)是LOCA的核心创新点。它构建对应于标注边界框的对象原型,这些原型能够很好地概括图像中选定对象类别的外观,并保持良好的定位属性。 OPE模块首先通过从图像特征中的单个边界框进行RoI池化,提取n个外观查询。这个池化操作使外观查询与形状无关,因为它将不同空间形状的特征映射到相同大小的查询中。但这样就丢失了形状信息,为了恢复这些信息,OPE引入了形状查询。 每个边界框对应的形状查询是通过将其宽度和高度映射到高维张量来计算的。这个映射是通过一个三层前馈网络实现的。形状信息对于准确定位物体至关重要,特别是在处理不同尺寸的物体时。 形状查询和外观查询通过迭代适应模块转换为对象原型。这个模块使用交叉注意力块的递归序列。形状查询首先被重塑成矩阵,同样,外观查询和图像特征也被重塑成相应的矩阵。适应迭代然后按照特定的计算序列进行,通过多头注意力机制和前馈网络处理这些查询。 这个过程迭代执行3次,逐渐将形状和外观信息融合到最终的对象原型中。最终输出被重塑成n个对象原型,每个原型都包含了丰富的形状和外观信息。 在零样本场景中,由于没有物体标注,OPE模块需要进行微小修改。在这种情况下,跳过与标注相关的步骤,而是使用可训练的显著性查询初始化。这使得LOCA能够适应从少样本到零样本的整个低样本计数问题范围。 LOCA使用L2损失函数进行训练,该损失函数计算预测密度图和归一化地面真实图之间的差异。归一化损失强调了图像中物体数量多的情况下的误差,通常这些情况包含具有高局部物体密度的最具挑战性的情况。此外,还添加了辅助损失来更好地监督迭代适应模块的训练。 在FSC147基准测试中,LOCA大大超过了所有现有方法。在标准少样本设置下,它实现了约30%的相对性能提升;在单样本设置下,它甚至超过了专为此设置设计的方法;在零样本计数上也达到了最新水平。特别是在具有极高物体密度的图像上,LOCA将计数误差降低了近50%。 LOCA的计算复杂度接近3倍少于最新方法CounTR,同时可训练参数量接近10倍少。这表明LOCA的出色低样本对象计数性能来自于方法论上的改进,而不是增加复杂度。 在实际应用中,LOCA表现出色。它能够精确地处理各种大小的物体,在密集和稀疏人口的场景中都有良好的表现。它生成的密度图具有高保真度的物体定位能力,能够很好地区分物体和背景。在处理小物体时,LOCA的表现尤为突出,这很可能是由于通过形状特定的显著性查询明确考虑了物体形状和大小。形状特定信息使LOCA能够更稳健地处理图像内的物体大小变化。 人工实验也验证了形状信息的重要性。如果移除形状查询,性能就会下降25%。同样,如果用可训练的查询替换从样本尺寸参数预测的形状查询,性能也会显著下降,表明从样本尺寸参数中提取的形状特定显著性信息确实有助于物体定位和准确计数。
小蘑菇覃予萱在乒超联赛时开了直播,跟几个小伙伴一起聊了一会儿天。听到旁边小姑娘
【2评论】【1点赞】