• 【笔记】DLHLP


    课程名称:深度学习与人类语言处理(Deep Learning for Human Language Processing)

    (自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是1:1的)

    人类语言处理的终极目标:让机器能够听懂人说的话,看懂人写的句子,并有能力说出人听得懂的话,写出人看得懂的句子。

    世界上只有56%的语言有文字形式,而且有些语言的文字系统未必被人们广泛使用(不如语音直接)。所以语音也是非常重要的,而且语音这部分不仅仅只有语音识别任务。

    人类语言处理的困难之处
    1秒的语音有16K个采样点,每个点包含256个可能的取值。
    而且没有人能够说同一段话两次,而语音的波形相同的。
    而且一句话其实是可以无限长的。

    人类语言处理包含的任务

    虽然人类语言处理的任务比较难,不过在深度学习中方法却比较简单,如下图所示(图中的Model就是Deep Network),各种问题硬train一发就能搞定。

    自动语音识别ASR

    传统的语音识别,包含前端信号处理、声学模型、语言模型还有词典等,要把这些部分都学通,较为复杂,而且模型通常需要2G大小,比较大。
    而目前的End-to-End的模型,只需要80MB,可以运行在手机上。

    语音合成TSS

    在课程视频里演示的语音合成案例里,下图的不同长短的“发财”它的语调居然都是不同的,而这些都是模型自己学出来的(很神奇)。
    不过这种黑盒算法也会有一些问题,虽然对于长句效果很好,不过对于短词效果较差(数据问题,训练数据中短句或者单词较少),比如谷歌历史上的翻译破音问题。

    语音转换:人声分割SS和音色迁移VC

    人声分割:就是把一段语音中混合的不同声音分离出来(End-to-End的模型直接就能做,傅里叶变换都不需要)。
    音色迁移:就是把一个人说过的话做音色迁移,输出的结果听起来像是由另外一个人说出来的。甚至还可以输出完全不同的内容。

    语音分类:人声辨识SR和关键词识别KS

    人声辨识:判断语音是谁说的,
    关键词辨识:判断语音中是否出现了关键词。比如唤醒词,Hi, Siri.

    文本生成

    生成方式:自回归(逐个生成)和非自回归。

    应用包括翻译、摘要、聊天机器人、自动问答等。

    此外,本门课程还会讲Meta Learning,知识图谱,对抗攻击,可解释AI等内容。

  • 相关阅读:
    js设置与获取Cookie
    js,正则应用
    Ajax支持跨域之Web API实现
    RSA加密解密在jsencrypt+c#的实现-博客园加密登录
    转:sqlserver无法创建索引,超时时间已到解决办法
    【转】asp.net 项目在 IE 11 下出现 “__doPostBack”未定义 的解决办法
    c#连接SFTP上传文件
    mac 修改mysql root密码
    Vue学习手记09-mock与axios拦截的使用
    Vue学习手记08-vue-cli的启动过程
  • 原文地址:https://www.cnblogs.com/yanqiang/p/13253787.html
Copyright © 2020-2023  润新知