排斥损失(Repulsion Loss)用于解决密集人群检测中人与人之间存在大量遮挡以致难以准确定位人群中单个人的问题。排斥损失由吸引项和排斥项构成,其中,吸引项用于缩小预测框与其指定目标之间差距,排斥项用于增大预测框与周围非目标物体之间的距离。
设计思想因为在现实场景中行人经常聚集成群、相互遮挡,因此,检测人群中的行人依然是一个充满挑战性的问题。一般而言,物体遮挡问题可以分为类内遮挡和类间遮挡两种情况。类间遮挡产生于扎堆的同类物体,也被称为密集遮挡(crowd occlusion)。在行人检测中,密集遮挡在所有遮挡问题中占比最大,严重影响着行人检测器的性能。1
密集遮挡显著增加了行人定位的难度。如图1,当目标行人 T 被行人 B 遮挡之时,由于两者外观特征相似,检测器很可能无法进行定位。从而本应该框定 T 的边界框转而框定 B,导致定位不准确。更糟糕的是,由于非极大值抑制(non-maximum suppression,NMS)需要进一步处理主要的检测结果,从 T 移走的边界框可能会被 B 的预测框抑制,进而造成 T 漏检。即人群遮挡使得检测器对非极大值抑制(NMS)阈值很敏感:较高的阈值会带来更多的误检(false positives),较低的阈值则造成更多的漏检(missed detection)。这会让大多数实例分割框架失效,因为它们也需要精确的检测结果。因此,如何精确地定位人群之中的每个行人是检测器最为关键的问题之一。
在当前最优的检测框架中,边界框回归技术常用来定位物体,其中回归器被训练用来缩小候选区域提议和真值框之间的差距。尽管如此,现有方法只需要候选区域提议接近其指定目标,并不考虑周遭的物体。如图 1 所示,在标准的边界框回归损失中,当预测框移向周遭物体时,对其并没有额外的惩罚。这不免使人设想:如果要检测人群之中的一个目标,是否应该考虑其周遭物体的定位?
在磁极相互排斥吸引的启发下,wang等1提出一种全新的定位技术,称之为 Repulsion Loss(RepLoss),通过它,每一个候选区域提议不仅会靠近其指定目标 T,还会远离其它真值框物体以及指定目标不是 T 的其他 候选区域提议。如图 1 所示,由于与周遭的非目标物体重叠,红色边界框移向 B 将受到额外的惩罚。因此,RepLoss 可以有效防止预测边界框移向相邻的重叠物体,提升检测器在人群场景中的鲁棒性。
RepLoss 计算方法RepLoss 包括 3 个组件,表示为:
其中, 是吸引项,需要预测框靠近其指定目标; 和 是排斥项,分别需要预测框远离周遭其他的 groundtruth 物体和其他指定目标不同的预测框。系数α和 β 充当权重以平衡辅助损失。
为简明起见,下面仅考虑两类检测,假定所有的真值框物体属于同一类别。分别使 和 为候选区域提议边界框和真值边界框,并分别由它们的左上点坐标及其高度、宽度表示。 是所有正候选区域提议的集合(那些和至少一个真值框有高 IoU 的被视为正样本,反之为负样本); 是一张图片中所有真值框的集合。1
吸引项给定一个候选区域提议 ,把具有极大值 IoU 的 groundtruth box 作为其指定目标: 。由此吸引损失可计算为:
排斥项(RepGT)RepGT 损失旨在使候选区域提议受到相邻的非目标 groundtruth 物体的排斥。给定一个候选区域提议,它的排斥 groundtruth 物体被定义为除了其指定目标之外带有最大 IoU 区域的 groundtruth 物体。受 IoU 损失的启发,RepGT 损失被计算以惩罚 P和之间的重叠。从而 ,RepGT 损失可写为:
其中,,,
候选区域提议越倾向于与非目标groundtruth 物体重叠,RepGT 损失对边界框回归器的惩罚就越大,从而有效防止边界框移向相邻的非目标物体。1
排斥项(RepBox)NMS 是绝大多数检测框架中不可或缺的后处理步骤,为降低检测器对 NMS 的敏感度,Wang等1接着提出 RepBox 损失,排斥来自不同指定目标的 proposal。RepBox 损失可计算为:
从上式可以看到,为最小化 RepBox 损失,指定目标不同的两个预测框之间的 IoU 区域需要较小。这意味着 RepBox 损失可以降低 NMS 之后不同回归目标的边界框合并为一的概率,使得检测器在密集场景中更鲁棒。1
本词条内容贡献者为:
李嘉骞 - 博士 - 同济大学