TensorMask: A Foundation for Dense Object Segmentation
这篇文章提出了one-stage instance segmentation的算法。传统来说,state of the art 的instance segmentation的做法基本上是先进行object detection得到2D框,然后在框内进行Semantic Segmentation。这样的two-stage甚至是Multi-stage的做法(object detection可能就two-stage).还有一种做法是先生成label pixel然后进行聚类。
本文核心思路就是将整个问题转换为一个四维张量的回归or分类问题。对每一个坐标点对应一个矩阵,设为单位转换比例,则矩阵中的元素指代原图是mask的概率,或其他参数。这样整个网络的训练目标就和一个SSD或者说Yolo差不多了,这同时又和DeepMask不同,显式地表达坐标,并为此适配更多的运算方式.
主要表达方式的定义
Natural Representation
表达为,对于一个4D的张量,它在的值代表在一个中心在的大小为窗口的点的mask值。
Aligned Representation
对一个4D的张量,它在的值代表在一个中心在的大小为窗口的点的mask值。
关键的理解是在坐标上的子矩阵,上的所有值都是在描述这个坐标的,所以称为为
两者的定义可以由这张图显示
两者的转换:
网络结构, 输出Head, 细节结构, 训练细节
网络采用FPN输出多个不同尺度的feature maps,形状
输出Head
本文比较了5种输出Head. 4种是baseline,
区别在于不同Scale上的图,第五个head会输出相同精确度的网格
其中的细节运算如图
这些细节运算本质上都是坐标变换以及采样
训练细节
对FPN的微调
Label分配
- Fully Contain
- center of m is close to center of windows
- unique