很久没有写blog了,今天把自己前面的两个工作介绍一下,第一个是SIGIR 2011 Full paper:
Efficient Manifold Ranking for Image Retrieval
虽然这个工作在算法上并不算有突破性的创新,但是因为是我自己的第一个工作,很多地方都在学习,所以也算马马虎虎了。
文章的目标是去加速经典的流行排序算法(Ranking on Data Manifold, or Manifold Ranking, MR),最后取得的结果是在损失有限精度的情况下,有效提高了算法运行速度。特别的,对于新的样本点(out-of-sample),算法也可以处理。
EMR的想法是这样的,在图片数据集中(为例),是存在很多小的相似子集的,如下图:三个小子集中的图片互相间很像。
因此,我们完全可以用少量的样本点,去代表其他数据点,这些点被称为Landmark点,或者Anchor Points。如下图所示:(假设有普通n个数据点,d个landmarks)
通过建立数据点和landmarks之间的关系(比如similarity),实际上,我们构建了一种二分图关系。可以用矩阵Z来表示,Z是d*n的。于是,为了简化W的计算,我们假设W=Z'Z,是一个weighted Affinity Matrix
最后通过推导,EMR使得原来计算manifold ranking结果r*需要计算一个n*n的矩阵求逆,非常慢,而现在求逆的部分变成了d*d。当d <<n的时候,速度可以大大提高。
最后贴一个图片检索的结果:每一行的第一张图是查询图,后面依次是返回。图片检索可以利用用户反馈(relevance feedback)来调整结果,第2-3行就是检索反馈前、后的结果。
其他信息可以参考我的论文原文,包括具体推导以及时间计算结果,可以在我的主页 http://eagle.zju.edu.cn/~binxu/中下载。
(原创文章,如转载请注明出处,谢谢!)