论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

Introduction

（1）Motivation：

① 现实场景中，给所有视频进行标记是一项繁琐和高成本的工作，而且随着监控相机的记录，视频信息会快速增多，因此需要采用半监督学习的方式，只对一部分的视频进行标记.

② 不同的相机有着不同的拍摄条件（如设备质量、图片尺寸等等），不同设备间的差异影响匹配的性能.

（2）Contribution：

① 提出一个半监督视频行人重识别方法(semi-supervised video-based person re-id approach).

② 设计了一个半监督字典学习模型(semi-supervised cross-view projection-based dictionary learning, SCPDL)，学习特征投影矩阵(降低视频内部的变化)和字典矩阵(降低视频之间的变化).

③ 采用iLIS-VID和PRID2011数据集验证方法.

The proposed approach

（1）问题定义：

X = [X_L, X_U]：相机1中的视频，

Y = [Y_L, Y_U]：相机2中的视频，

其中 X_L(p*n1)、Y_L(p*n3) 为标记的训练视频，X_U(p*n₂)、Y_U(p*n₄) 为未标记的训练视频，n₁、n₂、n₃、n₄ 为视频中包含的样本数，p 为样本的维数.

P₁(p*q)、P₂(p*q)：相机1和相机2的特征投影矩阵，

其中 q 为投影特征的维数.

D₁(q*m)、D₂(q*m)：相机1和相机2的字典矩阵，

其中 m 为字典的原子数量.

A_L、A_U、B_L、B_U：X_L、X_U、Y_L、Y_U 经过字典 D₁、D₂后的编码（每个视频的特征向量转为了一个编码矩阵，如 A_Lⁱ）.

问题定义如下：

其中 α、β、λ 为平衡因子，d_1,k (d_2,k) 定义为 D₁(D₂) 的第 k 个原子.

具体如下：

f(X, Y, D₁, P₁, D₂, P₂) 为学习矩阵的保真度项(fidelity term)：

g(X, Y, P₁, P₂) 为视频聚合项(video congregating term)：

其中 N_x 和 N_y 分别为 X 和 Y 中行人视频的数量，n^x_i 和 n^y_i 分别为 X 和 Y 中第 i 个视频的样本数量，m^x_i 和 n^y_i 为 X 和 Y 中第 i 个视频所有样本的中心：

d(A_L, B_L) 为视频区分度项(video discriminant term)，希望的结果是匹配项距离更小，不匹配项距离更大：

其中 γ 为平衡因子，S 是匹配成功的视频对，D 是不匹配的视频对，距离计算公式：

r(P₁, P₂, A_L, B_L, A_U, B_U) 为正则化项(regularization term)：

（2）方法概要：

（3）优化算法：

① 初始化：

通过优化下面的两个公式，对投影矩阵 P₁ 和 P₂ 进行初始化，并通过特征分解的方式得到解(特征分解推导参考：【传送门】)：

字典矩阵 D₁ 和 D₂ 采用随机生成的方法.

通过优化下面的四个公式，对 A_L、A_U、B_L、B_U 进行初始化，通过岭回归的方法进行求解（岭回归参考：【传送门】）：

求解结果：

② 固定D₁、D₂、P₁、P₂，更新字典编码 A_L、B_L、A_U、B_U：

求解过程为对每一个视频 A_Lⁱ 依次求解，先对 A_L 进行求解（B_L 类似），对下式进行求导得到解：

同理，对 A_U、B_U 进行更新.

③ 固定 A_L、B_L、A_U、B_U、D₁、D₂，更新 P₁、P₂：

通过求导得出解：

其中：

其中：

④ 固定 A_L、B_L、A_U、B_U、P₁、P₂，更新 D₁、D₂：

使用ADMM算法进行求解：

引入变量 S：

先对 D₁ 进行求解（D₂ 同理可得）：

⑤ 算法总结：

（4）识别过程：

通过上述内容，已经学习到了投影矩阵(P₁, P₂)、字典矩阵(D₁, D₂).

从相机1中得到待测视频的特征为 Xi，从相机2中得到视频特征库 Z = {Z₁, ..., Z_j, ..., Z_n}.

识别过程：

① 计算待测视频的字典编码 A_i：

② 计算视频库所有视频的字典编码 B_j (j = 1, ...,n)：

③ 计算 A_i 和 B_j (j = 1, ..., n) 的距离，并挑选出距离最近的匹配视频.

Experimental Results

（1）实验设置：

① 数据集：iLIDS-VID、PRID2011

参数(α、β等)训练阶段：将标记后的数据集划分，采用3折交叉验证法(分成3份，前2份作为训练集，第3份作为测试集，循环3次取平均测试结果)

评估训练阶段：总体数据集划分为一半标记的数据集，一半未标记的数据集.

② 对比方法：DVR、Salience+DVR、MS-Colour&LBP+DVR、STFV3D、STFV3D+KISSME、TDL、SI²DL、RCN.

③ 参数设置：对于参数 α、β、γ、λ、q、m，采用学习曲线选取最佳的参数.

最终的设置为：对于iLIDS-VID， α = 6、β = 3、γ = 0.05、λ = 0.03、q = 300、m = 220；对于PRID2011，α = 5、β = 4、γ = 0.06、λ = 0.05、q = 260、m = 240.

（2）实验结果：

① 在iLIDS-VID上的结果：

② 在PRID2011上的结果：

在rank-1阶段SCPDL方法比SI²DL差的可能原因： SCPDL是半监督学习的方法，只能使用一半的带标签数据进行训练，当相同数量的带标签数据时，性能将会更好.
相关阅读:
Hibernate优缺点
 Struts优缺点
 Problem M
Problem K
Problem K
Problem Q
Problem Q
Problem F
Problem F
哈夫曼树
原文地址：https://www.cnblogs.com/orangecyh/p/11977573.html