一、 简介
本文介绍了不同的角度估计方法在同一情况中的比较,以及对影响性能的关键因素的详细分析。接下来,我们提出了一种新的联合训练方法和检测任务,并证明了它的好处。我们还强调了分类方法优于回归方法的优越性,量化了更深层架构和扩展训练数据的优势,并证明即使使用ImageNet训练数据,合成数据也是有益的。
二、参考文献
1. CVPR2016: Crafting a multi-task CNN for viewpoint estimation
by Massa, Francisco,Marlet, Renaud,Aubry, Mathieu
2. ICCV2015: Render for CNN: Viewpoint estimation in images using CNNs trained with rendered 3D model views
by H. Su, C. R. Qi, Y. Li, and L. J. Guibas.
三、数据集
Pascal 3D+(物体检测)
四、4种pose estimation方法
1. 基于回归的Viewpoint estimation
可能是表示方向的最简单方法
具有比前一个更高的维度,允许网络更灵活地更好地捕获姿势信息。
这些表示具有不同的输出维数Nd,分别为2和3。
损失函数为:
H(●)表示huber loss
Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。
当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。
相比于最小二乘的线性回归,HuberLoss降低了对离群点的惩罚程度,所以 HuberLoss 是一种常用的鲁棒的回归损失函数。
回归方法对视点估计的主要限制是它不能很好地表示不同视点之间可能存在的模糊性
实际上,诸如Table之类的对象具有对称性或近对称性,这使得视点估计问题本质上是模糊的。
该问题的一个解决方案是对姿势空间进行解体并预测每个方位区的概率,从而将问题公式化为分类之一
2. 基于分类的Viewpoint estimation
2.1 直接分类
2.2 几何结构感知分类(Geometric structure aware classification)
先前分类方法的缺点在于它学习预测姿势而 没有明确地使用viewpoint之间的连续性。 两个相邻的bin确实有很多共同之处。 这种几何信息对于细粒度方向预测可能尤其重要
输出
原论文:d是两个视点之间的距离,被定义为2维球(圆)上的(θ, φ)点的测地距离(两点之间最近距离)加上ψ的l1距离。
本文:the distance between the centers of the two bins
五、联合目标检测和角度估计
我们仅在pool5层共享检测和姿势估计网络的权重。 这对于获得良好的性能至关重要,因为回归和分类损失足够不同以至于共享更多权重会导致更糟糕的结果。
相同的2分支方法一样也可以用于分类
作者提出了一个一种新的更简单且无参数的方法来在分类设置中执行联合检测和姿态估计。
输出对于每个类和bin的联合概率?输出每个类c在x方向的概率
六、实验
https://arxiv.org/abs/1412.7122v3 synthetic数据论文
七、讨论(开会后的总结:参与人员和QA)
QA: