• 《python深度学习》笔记---6、文本和序列


    《python深度学习》笔记---6、文本和序列

    一、总结

    一句话总结:

    循环神经网络(recurrent neural network)和一维卷积神经网络(1D convnet):可以用来处理文本和序列的问题。

    1、用于处理序列的两种基本的深度学习算法分别是 什么?

    循环神经网络(recurrent neural network)和一维卷积神经网络(1D convnet):后者是上一章介绍的二维卷积神经网络的 一维版本。

    2、文本和序列相关的应用?

    文档分类和时间序列分类:比如识别文章的主题或书的作者;
    序列到序列的学习:比如将英语翻译成法语;
    情感分析:比如将推文或电影评论的情感划分为正面或负面;
    时间序列预测:比如根据某地最近的天气数据来预测未来天气。


    时间序列对比:比如估测两个文档或两支股票行情的相关程度;

    3、本章处理 文本和序列 深度模型的缺陷?

    【没有真正理解】:本章的这些深度学习模型都没有像人类一样真正地理解文本,而只是映射出书面语言的统计结 构,但这足以解决许多简单的文本任务。

    4、深度学习用于自然语言处理?

    【将模式识别应用于单词、 句子和段落】:深度学习用于自然语言处理是将模式识别应用于单词、 句子和段落,这与计算机视觉是将模式识别应用于像素大致相同。

    5、为什么需要 文本向量化(vectorize)?

    【只能处理数值张量】:与其他所有神经网络一样,深度学习模型不会接收原始文本作为输入,它只能处理数值张量。 文本向量化(vectorize)是指将文本转换为数值张量的过程。

    6、文本向量化(vectorize)的多种方式?

    将文本分割为单词:并将每个单词转换为一个向量。
    将文本分割为字符:并将每个字符转换为一个向量。
    提取单词或字符的n-gram:并将每个n-gram 转换为一个向量。n-gram 是多个连续单词 或字符的集合(n-gram 之间可重叠)。

    7、分词(tokenization)?

    【将文本分解成标记的过程】:将文本分解而成的单元(单词、字符或n-gram)叫作标记(token),将文本分解成标记的 过程叫作分词(tokenization)。

    8、文本向量化过程?

    【应用某种分词方案】:所有文本向量化过程都是应用某种分词方案,然后将数值向量 与生成的标记相关联。这些向量组合成序列张量,被输入到深度神经网络中

    9、将向量与标记相关联的方法有很多种?

    对标记做one-hot 编码(one-hot encoding)与标记嵌入[token embedding,通常只用于单词,叫作词嵌入(word embedding)]。

    二、6、文本和序列

    博客对应课程的视频位置:

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    提交上了,却在iTunes Connect没有新版本的任何消息
    真机调试 —— An unknown error occurred.
    UI第二节——UIButton详解
    UI第一节—— UILable
    OC第九节——协议与代理
    补10月26日
    我看互联网第一约战
    接受自己的不完美---写在毕业之后的总结
    写给自己的学习之道
    越过山丘
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/13806249.html
Copyright © 2020-2023  润新知