• 论文-See, Hear and Read: Deep Aligned Representations


    See, Hear and Read: Deep Aligned Representations

      

    本paper提出了可以在三种自然模态(视觉,声音,语言)下进行学习的深度判断特征表达,使用Deep Conv Network来进行对齐式的表达学习。

    本paper使用的dataset:

    Cross-Modal Network

    目标是对image X 和sound Y学习其对齐之后的representation。

    Learning Aligned Representation的结构:

    为了让不同模态之间的representation进行对齐,在网络较上层的layer进行共享参数。这样的好处是让类内部的representation进行跨模态的融合。

    Student-teacher模型在transfer learning上使用。在本paper中,不使用aligned representation,而是让learned parameters进行共享。

    Alignment by Model Transfer

    给定一个 teacher 模态 g(x), 比如让AlexNet成为image classification model,在给定另一个模态的data时,对f(x) 进行训练。

    使用KL-divergence作为loss:

    Alignment by Ranking

    对于ranking loss function,采用有着对齐和判别属性的表达式:

    其中△是边缘大小的超参数。

    Learning

    其中 model transfer loss 来源于最后一层的output layer,ranking loss 来源于所有的共享layers。最后的objective loss 是两者的总和。

    Network Architecture

    网络有三层不同的输入层,取决于数据的不同模态。其中网络的disjoint pathway对不同的模态的data进行feature extraction,然后在shared layers中拟合成modal-robust features。

    Sound Network

    因为sound是一维的信号,本paper使用四层的卷积网络将spectrogram转换成high-level的representation,

    Text Network

    使用word2vec将sentences转换为word representation,使用一个四层的deep one-dimensional Convolutional Network 来提取特征

    Vision Network

    使用标准的Krizhevsky architecture,提取pool5的特征经过flatten作为特征

    Shared Network

    来自sound,text,和vision的feature都有着固定长度相同维度的vector,

    对比结果:

    总结:

    将data经过不同的特征转化网络,在shared layer里面将相同label的特征统一扭曲到可分的空间中。

  • 相关阅读:
    Delphi编写星光效果
    网格动画
    在窗体边框上画图
    algebra单元
    CMOS单元
    类似于Split(VB)的函数
    利用PHPLIB加入模板功能
    随机产生一个中文
    测试PHP
    获得指定后缀名的文件数
  • 原文地址:https://www.cnblogs.com/zhang-yd/p/7838024.html
Copyright © 2020-2023  润新知