Associative Embedding: End-to-End Learning for Joint Detection and Grouping
这篇论文对我来说是CornerNet的前置.两篇也是同一个作者。
Associative Embedding 简介
这篇论文使用1D embedding,目的是训练网络对来自同一个group的detection输出相似的tags,different tags for detection。
Stacked Hourglass Architecture
hourglass结构可以在这篇论文看到也在CornerNet这篇论文用过,大家稍有不同,不过总体思路一致。
多人肢体估计
本文使用前面的backbone预测每一个pixel的detection score for each joint("left writst", "right shoulder"),
要进一步完成整个keypoint detections。如果有个关节,则输出个channel,其中个作为detection的heatmap, 个作为grouping的 tags。
整个cost:
其中是pixel 对应的tag value。,其中是第个人的第个身体关节的pixel位置.
inference时的流程
首先对第一个关节,给一个阈值,然后做non-max suppression.得到各个人物的初始估计。
之后对其他每一个关节,做一个maximum matching,同时基于tag value以及detection score。