• CS224n笔记12 语音识别的end-to-end模型


    本文转自:http://www.hankcs.com/nlp/cs224n-end-to-end-asr.html

      这次斯坦福请到了深度学习教父Hinton的弟子Navdeep来讲语音识别,他正在英伟达工作,怪不得N卡在深度学习中的地位如此之高。而他本人也在用Dell的搭载了N卡的XPS跑Ubuntu,一改以往“讲台必定信仰灯”的局面。

    Automatic Speech Recognition(ASR)

    ASR就是将声学信号转化为文本的系统。

    hankcs.com 2017-07-01 上午10.40.18.png

    语音是一种自然的用户接口:

    2017-07-01_10-42-10.png

    传统ASR

    传统做法的主体是生成式语言模型,建模声学信号与文本的发音特征的联合概率,但pipeline的不同部分掺杂了不同的机器学习模型:

    hankcs.com 2017-07-01 上午10.49.02.png

    近现代ASR

    神经网络兴起之后,人们发现传统pipeline中的每个模型都可以被一种对应的神经网络所替代,并且取得更好的效果:

    hankcs.com 2017-07-01 上午10.52.23.png

    但是这么多混乱的目标函数各自为政,难免有顾此失彼的情况。这构成一种动机,为什么不用一个统一的大模型来取代这盘散沙呢?

    end-to-end ASR

    直接从音频到字符的概率模型$p(Y|X)$:

    hankcs.com 2017-07-01 上午10.58.05.png

    (上半部分与生成式模型作对比)

    Connectionist Temporal Classification

    这是一种强大的概率模型,特别适用于语音识别。其主体是一个Bidirectional RNN,上面是一层softmax。

    hankcs.com 2017-07-01 上午11.07.28.png

    词表中还有一个空格<b>,这很重要。

    由于语音片段(帧)切割时的随意性,可能导致一个字符c被切割为多个帧,每个帧都输出c。为了区分字符与字符的界限,所以引入空格分隔符。在解码的时候还需要限制字符只能转移到相同的字符,或者空格。

    hankcs.com 2017-07-01 上午11.15.15.png

    解码时的直观演示:

    2017-07-01_11-24-13.png

    灰色线条表示无输出的概率。

    一些效果

    2017-07-01_11-28-56.png

    hankcs.com 2017-07-01 下午4.06.20.png

    hankcs.com 2017-07-01 下午4.07.03.png

    可见识别结果听上去挺像那么回事,可拼写不正确。Google通过在训练时集成语言模型进去修正了这些问题。而且不再使用字符级别,而是使用单词级别的大词表,识别出可能的单词后,用语言模型挑出最可能的句子。

    2017-07-01_16-15-12.png

    虽然这是个end-to-end模型,但还是掺杂了一个语言模型。没有语言模型的帮助,该CTC模型无法根据已识别的单词做条件调整下次预测。

    sequence to sequence speech recognition with attention

    让语言模型也成为模型天然的一部分,将音频视作sequence,文本视作另一个sequence,类似于NMT中的encoder-decoder,LSTM模型根据之前的y和全部x预测下一个y:

    2017-07-01_16-21-00.png

    一下子把x都喂进去后,对于很长的序列来讲,需要做attention,在不同的时刻关注输入的不同部分:

    hankcs.com 2017-07-01 下午4.25.45.png

    由于是RNN,所以输入x依然不是定长的。

    Listen Attend and Spell

    定义score函数,接受每个历史时刻的encoder隐藏状态$h_t$和decoder的当前状态$s$,得到当前应当对每个历史时刻倾注多少注意力。softmax归一化,加权和得到最终的context vector,参与预测。

    hankcs.com 2017-07-01 下午4.32.39.png

    这里的encoder是树形的,因为对于较长的语音来讲,要softmax的timestep实在太多,效率不高、模型注意力被分散。通过用softmax把相邻的timestep总结一下,提高了效率和效果。

    这个模型是强大的,学习到了很多pattern:

    hankcs.com 2017-07-01 下午4.40.29.png

    还可能产生一个读音的不同拼写(取决于早期的预测结果,然后导致不同的attention):

    2017-07-01_16-45-01.png

    2017-07-01_16-45-28.png

    效果

    得到的效果虽然没有超越多年优化的旧模型,但也是一个量级的:

    hankcs.com 2017-07-01 下午4.47.51.png

    LAS的限制

    • 必须等到用户说完话之后才能开始识别

    • attention是计算瓶颈

    • 输入的长度对准确率影响特别大

    hankcs.com 2017-07-01 下午4.50.42.png

    在线seq2seq模型

    希望能够即时产生输出,并且不需要在整个sequence上分配attention。

    Neural Transducer

    根据一个定长的输入序列片段产生输出,不要要前一个输出,依然需要空白符,依然需要alignment(哪些字母属于一个词):

    hankcs.com 2017-07-01 下午5.05.23.png

    用空白符隔开的区块只是一个字符,究竟哪些字符成词,又回到了老生常谈的“分词”问题上来。这里采用了柱搜索找出最可能的路径。

    hankcs.com 2017-07-01 下午5.10.55.png

    训练的时候理论上有一个非常复杂的对数似然的梯度,但实际上经常只取对齐,不做识别上的求和:

    hankcs.com 2017-07-01 下午5.15.10.png

    对齐的过程类似viterbi,但并不严格是,我们是在找最优路径,但路径与之前的每个选择都有关。柱搜索不太理想,如果记录到每个block(字符)为止产生特定数量token的最大概率,则可以用动态规划解决:

    hankcs.com 2017-07-01 下午5.22.56.png

    结果

    hankcs.com 2017-07-01 下午5.25.36.png

    在有attention的情况下,窗口大小影响不大;而在无attention的情况下,窗口较小效果较好。

    Encoder中的卷积

    与其简单地层叠两个timestep,不如喂给很深的卷积网络:

    2017-07-01_19-06-34.png

    效果显著:

    hankcs.com 2017-07-01 下午7.08.28.png

    目标颗粒度

    有很多选择:

    hankcs.com 2017-07-01 下午7.10.38.png

    但对语音识别来讲,更有用的是字符的ngram(相当于音节):

    hankcs.com 2017-07-01 下午7.11.43.png

    它们有指数级的组合可能,不清楚哪一种是最好的:

    hankcs.com 2017-07-01 下午7.14.31.png

    对于end-to-end模型来讲,常用的手法是由模型自动决定ngram的分割:

    hankcs.com 2017-07-01 下午7.15.34.png

    效果

    hankcs.com 2017-07-01 下午7.18.36.png

    上表的ngram代表“最大产生ngram”的意思。

    hankcs.com 2017-07-01 下午7.19.47.png

    模型缺点

    在句子开头和人名地名处困惑度较高:

    hankcs.com 2017-07-01 下午7.23.08.png

    在词语分界处的错误自信会导致搜索时的错误,连语言模型也无力回天。

    解决办法

    通过惩罚softmax输出概率1来Entropy Regularization正则化模型,可以克服这个问题:

    hankcs.com 2017-07-01 下午7.26.50.png

    与其直接ER,不如让输出的分布尽量与Unigram的分布相似,这样效果更好了。

    另一个缺点

    另一个问题是,模型偏向于惩罚生成很长的输出,这对很长的输入来讲会出现提前终止输出的情况:

    hankcs.com 2017-07-01 下午7.30.51.png

    比如:

    hankcs.com 2017-07-01 下午7.32.21.png

    解决办法是在预测时惩罚那些不看输入的情况,未处理的输入越多,惩罚越大。

    这种粗暴的方法还是取得了一些效果提升:

    hankcs.com 2017-07-01 下午7.36.12.png

    Better Language Model Blending

    标注音频-字幕数据毕竟不如海量的未标注文本多,而end-to-end模型是一个自治的大模型,内部隐式地存在通过标注数据学习到的语言模型。在哪里如何与外部语言模型混合呢?

    答案是在decoder的softmax预测结果的对数概率上线性混合:

    2017-07-01_19-41-02.png

    还有很多种混合手段,也是个新的前沿课题。

    Better Sequence Training

    上节课提到的ground truth问题,除了scheduled sampling之外,还有一些拓展。比如Reinforement Learning之类(草草提了两句)。

    机会

    一些研究方向了。

    多音源

    鸡尾酒舞会上有很多人说话,能否都识别出来呢?以前的生成式模型心中有一个固定的模式去生成数据与输入对比,不适合这个任务。现在常用的判别式模型反过来,以输入特征预测结果,应该可以做出以前做不到的成绩。

    hankcs.com 2017-07-01 下午7.51.52.png

    "同声传译"

    接受法语音频,直接输出英文文本。相当于将上面提到的模型与MT模型blend到一起了:

    hankcs.com 2017-07-01 下午7.53.43.png

    两者分别对原文和音频的对齐是非常类似的:

    hankcs.com 2017-07-01 下午7.55.27.png

    Life is short, but I have a cat.
  • 相关阅读:
    Spring mvc时间格式处理
    dubbo升级spring4与cxf
    dom4j使用总结
    java utils
    ES6
    ES6
    javascript常用方法
    ES6
    ES6
    ES6
  • 原文地址:https://www.cnblogs.com/koocn/p/7701653.html
Copyright © 2020-2023  润新知