《python深度学习》笔记---6、文本和序列

《python深度学习》笔记---6、文本和序列

《python深度学习》笔记---6、文本和序列

一、总结

一句话总结：

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：可以用来处理文本和序列的问题。

1、用于处理序列的两种基本的深度学习算法分别是什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的一维版本。

2、文本和序列相关的应用？

文档分类和时间序列分类：比如识别文章的主题或书的作者；

序列到序列的学习：比如将英语翻译成法语；

情感分析：比如将推文或电影评论的情感划分为正面或负面；

时间序列预测：比如根据某地最近的天气数据来预测未来天气。

时间序列对比：比如估测两个文档或两支股票行情的相关程度；

3、本章处理文本和序列深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结构，但这足以解决许多简单的文本任务。

4、深度学习用于自然语言处理？

【将模式识别应用于单词、句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。

6、文本向量化（vectorize）的多种方式？

将文本分割为单词：并将每个单词转换为一个向量。

将文本分割为字符：并将每个字符转换为一个向量。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词或字符的集合（n-gram 之间可重叠）。

7、分词（tokenization）？

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的过程叫作分词（tokenization）。

8、文本向量化过程？

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中

9、将向量与标记相关联的方法有很多种？

对标记做one-hot 编码（one-hot encoding）与标记嵌入［token embedding，通常只用于单词，叫作词嵌入（word embedding）］。

二、6、文本和序列

博客对应课程的视频位置：

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处
一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

博主25岁，前端后端算法大数据人工智能都有兴趣。

大家有啥都可以加博主联系方式（qq404006308，微信fan404006308）互相交流。工作、生活、心境，可以互相启迪。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

26岁，真心找女朋友，非诚勿扰，微信fan404006308，qq404006308

人工智能群：939687837

作者相关推荐

感悟总结

其它重要感悟总结

感悟总结200813 最近心境200830 最近心境201019 201218-210205
相关阅读:
提交上了，却在iTunes Connect没有新版本的任何消息
 真机调试 —— An unknown error occurred.
UI第二节——UIButton详解
 UI第一节—— UILable
OC第九节——协议与代理
 补10月26日
 我看互联网第一约战
 接受自己的不完美---写在毕业之后的总结
 写给自己的学习之道
 越过山丘
原文地址：https://www.cnblogs.com/Renyi-Fan/p/13806249.html

《python深度学习》笔记---6、文本和序列

《python深度学习》笔记---6、文本和序列

一、总结

一句话总结：

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：可以用来处理文本和序列的问题。

1、用于处理序列的两种基本的深度学习算法分别是 什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的 一维版本。

2、文本和序列相关的应用？

文档分类和时间序列分类：比如识别文章的主题或书的作者；

序列到序列的学习：比如将英语翻译成法语；

情感分析：比如将推文或电影评论的情感划分为正面或负面；

时间序列预测：比如根据某地最近的天气数据来预测未来天气。

3、本章处理 文本和序列 深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结 构，但这足以解决许多简单的文本任务。

4、深度学习用于自然语言处理？

【将模式识别应用于单词、 句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、 句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要 文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。 文本向量化（vectorize）是指将文本转换为数值张量的过程。

6、文本向量化（vectorize）的多种方式？

将文本分割为单词：并将每个单词转换为一个向量。

将文本分割为字符：并将每个字符转换为一个向量。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词 或字符的集合（n-gram 之间可重叠）。

7、分词（tokenization）？

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的 过程叫作分词（tokenization）。

8、文本向量化过程？

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量 与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中

9、将向量与标记相关联的方法有很多种？

对标记做one-hot 编码（one-hot encoding）与标记嵌入［token embedding，通常只用于单词，叫作词嵌入（word embedding）］。

二、6、文本和序列

作者相关推荐

1、用于处理序列的两种基本的深度学习算法分别是什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的一维版本。

3、本章处理文本和序列深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结构，但这足以解决许多简单的文本任务。

【将模式识别应用于单词、句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词或字符的集合（n-gram 之间可重叠）。

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的过程叫作分词（tokenization）。

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中