====================================
咳咳咳
由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal information至关重要。
so,总结了一下以前看过的,包括现在正在复现的paper 中的idea。
1. LSTM
L. Jiang, M. Xu, and Z. Wang. Predicting video saliency with object-to-motion CNN and two-layer convolutional LSTM. CoRR, abs/1709.06316, 2017.
这篇是two stream+lstm实现video saliency最早的一篇论文了应该,虽然当时也是想到这种方法,但是,速度太慢。。。人家结果都出来了,emmmmm,所以说,想法很重要,快速实现也很重要。
2. 3D CNN的扩展
Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, Manohar Paluri, A Closer Look at Spatiotemporal Convolutions for Action Recognition,CVPR2018
论文在 这里., 源码在这里
作者将3D CNN替换成了连续的两次卷次操作(2D空间卷积+1D时间卷积)
好处:
1. 一次操作变成两次,double了激活次数,有利于增强模型表达能力;
2.有利于模型训练,3D CNN将时序特征和空间特征提取混在一起,相互干扰,不利于模型的训练。
未完待续,其他看过的都是大同小异,离不开LSTM,看到更好地能对自己有新的提示的好文再来更新~~