论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image

论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image

Introduction

（1）IVPR问题：

根据一张图片从视频中识别出行人的方法称为 image to video person re-id（IVPR）

应用：

① 通过嫌犯照片，从视频中识别出嫌犯；

② 通过照片，寻找走失人口.

（2）图片-视频行人匹配问题的描述：

（3）IVPR的难点：

① 图像、视频的特征不同：视频包含视觉外貌特征(visual appearance features)和时空特征(spatial-temporal features)，而图片只包含视觉外貌特征；

② IVPR是一个点到集合的匹配问题(point-to-set)，每一段视频的不同帧或者步行周期都有较大的变化.

（4）Motivation：

现存的行人重识别方法需要两个对象提供同类的特征，然而在IVPR问题中，只有视觉外貌特征能够从两个对象中提取出，而时空特征只能在视频提取，因此无法应用到现存的方法中. 在视频行人重识别中，时空特征和视觉外貌特征是互补的，不可或缺，仅仅使用视觉外貌特征会限制识别性能. 并且现有的算法并不适用于点到集合的匹配问题.

（5）Contribution：

① 首次对图像-视频匹配问题进行研究.

② 提出了一个联合特征投影矩阵和异构字典对学习方法(PHDL)，特征投影矩阵(joint feature projection matrix)使得同一个视频之间的变化降低，异构字典对(heterogeneous dictionary pair)使得异构的图片和视频的特征转换成相同维度的编码；设计了一个点到集合的系数区分度项，确保特征编码有较好的区分度.

③ 设计了一个视频聚集项，来降低视频内部的变化，提高视频的紧凑型.

The Proposed Approach

（1）问题定义：

① 参数及变量定义：

X = {x₁, ..., x_i, ..., x_n}：训练图像特征集，x_i 表示第 i 个行人图片，规格为 p 维（其中 n 为行人数量）；

Y = {Y₁, ..., Y_i, ..., Y_n}：训练视频特征集，Y_i = {y_i,1, ..., y_i,j, ..., y_i,ni} 表示第 i 个行人视频，y_i,j表示第 i 个视频的第 j 个步态周期提取的特征，规格为 q 维（其中 n_i 为第 i 个行人的步态周期数）；

W：学习得到的特征压缩矩阵（feature projection matrix FPM），规格为 q*q₁（其中q₁为压缩后的特征维度）；

D_I：学习得到的图片字典，规格为 p*m（其中 m 为原子数量）；

D_V：学习得到的视频字典，规格为 q₁*m；

A = {a₁, ..., a_i, ..., a_n}：X 通过 D_I 得到的编码系数矩阵(coding coefficient matrix)；

B = {B₁, ..., B_i, ..., B_n}：Y 通过 D_V 得到的编码系数矩阵，其中 B_i = {b_i,1, ..., b_i,j, ... b_i,ni}.

② PHDL方法介绍：（文中使用到了字典学习，相关知识参考【传送门】）

③ 问题定义：

其中的参数和函数：

α、β、γ 是平衡因子(balancing factor)，

d_I,i、d_V,i 是 D_I、D_V 的第 i 个原子.

：图片重构保真度项(image reconstruction fidelity term)，个人理解：衡量原始数据集和字典矩阵编码后的差异，尽量要缩小两者间的差距，使得编码结果与原始数据更贴近.

：视频重构保真项(video reconstruction fidelity term).

：视频聚合项(video congregating term)，理解为所有视频的每个特征与特征均值 m 的距离.

：点到集合编码差异项(point-to-set coefficient discriminant term)，对于匹配成功的 image-video pair 距离更短，对于匹配失败的 image-video pair 距离更长，其中，S 为匹配成功的集合，Q 为匹配失败的集合，η 为平衡因子.

：正则化项(regularization term)，个人的理解是正则化项通常用于防止过拟合.

（2）优化算法：

将目标函数分为三个子问题：编码系数更新(A、B更新)、字典矩阵更新(D_I、D_V更新)、特征投影矩阵更新(W更新).

① 初始化 W、D_I、D_V、A、B：

首先通过下式的优化，初始化W：

【使用特征分解的方法，同论文笔记二中的推导】

再用随机矩阵的方法对字典矩阵进行初始化；

最后对A、B的初始化可以视为岭回归(ridge regression)问题：

分析得出：

（上式为岭回归问题，参考内容【传送门】）

② W、D_I、D_V确定，更新A、B：

采用求导的方式得到结果（其中 C_j,i 的每一列是 a_j）：

推导过程如下( B_i类似)

③ 确定 A、B、W，更新 D_I 和 D_V：

引入变量 S (其中 s_i 表示 S 中的第 i 个原子)：

使用ADMM算法对求解 D_I 进行优化(求解 D_V 类似)：

④ 确定 D_I、D_V、A、B，更新 W：

通过求导得出解：

其中（但我算到的结果不一致）

推导过程：

⑤ 优化算法流程：

（3）结果预测：

待测图片：x

视频库：Z = [Z₁, ..., Z_i, ...,Z_l]，其中 Z_i = [z_i,1, ..., z_i,j, ..., z_i,ni] 表示第 i 个视频的特征集.

行人重识别过程：

① 将图片 x 通过 D_I 转为编码a；

② 将视频集 Z 通过 D_V 编码 G；

③ 计算两者间的距离：，对结果进行排序.

Experimental Results

（1）数据集：

① iLIDS-VID数据集：

该数据集含有300个行人的600个图像序列，每个行人都有来自两个相机拍摄的图像序列.

每个图像序列含有22-192帧，平均还有71帧.

② PRID2011数据集：

Cam-A含有385个行人的图像序列，Cam-B含有749个行人的图像序列.

每个序列含有5-675帧，平均含有84帧（低于20帧的需要被忽略）.

（2）实验设置：

① 对比方法：RDC、KISSME、ISR、XQDA、PSDML、LERM.

② 特征选取：WHOSE、STFV3D.

③ 评估设置：从一个相机的视频序列中随机挑选一帧作为待测图片，从另一个相机的视频中进行识别. 数据集的50%作为训练集，50%作为测试集.

④ 参数设置：对于iLIDS-VID数据集：α = 10, β = 0.8, λ = 0.012, η = 0.12，字典规格120，W的列数460；对于 PRID2011数据集：α = 12, β = 0.7, λ = 0.01, η = 0.14，字典规格180，W的列数380.

（3）实验结果：

Discussion

（1）特征压缩矩阵的效果：

若没有使用特征压缩矩阵 W ，记为 PHDL-W：

（2）字典规格和特征压缩矩阵规格的选择：

根据在iLIDS-VID数据集上的实验结果，最终选定字典大小为120，FPM大小为[400, 600]之间.（PRID2011数据集类似）

（3）参数的选择：

根据在iLIDS-VID数据集上的实验结果，α 选择[6, 16]之间，β 和 η 选择0.8和0.12，λ 选择[0.006, 0.016]之间.（PRID2011数据集类似）

（4）迭代次数的选择：

在实验中，迭代15次基本趋于水平.
相关阅读:
浅水方程
 Delaunay三角剖分算法
 计算机图形学知名期刊杂志(转载)
Sql 主键自增
 Skinny triangle
开源免费天气预报接口API以及全国所有地区代码！！
Navier Stokes(纳维叶－斯托克斯)方程
 java.util.Date_与_java.sql.Date互转_及_字符串转换为日期时间格式
 2015最后一天
 html标签
原文地址：https://www.cnblogs.com/orangecyh/p/11908461.html