TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程
TfidfVectorizer、CountVectorizer 和 TfidfTransformer 是 sklearn 中处理自然语言常用的工具。TfidfVectorizer 相当于 CountVectorizer + TfidfTransformer。
下面先说 CountVectorizer。

CountVectorizer

CountVectorizer 的作用是将文本文档转换为计数的稀疏矩阵。下面举一个具体的例子来说明(代码来自于官方文档)。
```
from sklearn.feature_extraction.text import CountVectorizer
# 定义一个 list，其中每个元素是一个文档(一个句子)
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
# 将文本数据转换为计数的稀疏矩阵
X = vectorizer.fit_transform(corpus)
# 查看每个单词的位置
print(vectorizer.get_feature_names())
#输出为 ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

# 由于 X 存储为稀疏矩阵，需要转换为 array 才能查看
print(X.toarray())
# 输出为
# [[0 1 1 1 0 0 1 0 1]
#  [0 2 0 1 0 1 1 0 1]
#  [1 0 0 1 1 0 1 1 1]
#  [0 1 1 1 0 0 1 0 1]]
```
其中 vectorizer.get_feature_names()包含了数据中出现的所有单词去重后的集合，相当于一个词典。当然你也可以给 CountVectorizer 提供一个单独的词典，否则 CountVectorizer 会自己从数据中学习到词典。

X.toarray()是查看文档转化后的计数矩阵。比如矩阵的第一行[0 1 1 1 0 0 1 0 1]对应于文档中的第一句This is the first document.，表示词典中对应位置的单词出现的次数。

This is the first document转为为计数矩阵后如下：

and document first is one second the third this

0 1 1 1 0 0 1 0 1

其他句子也是类似的规则，这里不再赘述。
原来文档元素个数是 4，每个元素是一个句子，长度不固定。X.toarray()的维度是 (4,9)，
可以看到转化之后的计数矩阵的元素是 4，每个元素的长度固定为 9，这里的 9 就是字典的长度。

TfidfTransformer

使用计算 tf-idf。tf 表示词频率，而 tf-idf 表示词频率乘以逆文档频率。这是信息检索中常用的一种术语权重方案，在文档分类中也得到了很好的应用。如果你还不了解 tf-idf，请阅读阮一峰老师的这篇文章。
使用 TfidfTransformer 如下，输出的 tf-idf 矩阵维度也是 (4,9)
```
from sklearn.feature_extraction.text import TfidfTransformer
 
transform = TfidfTransformer()    
Y = transform.fit_transform(X)    # 这里的输入是上面文档的计数矩阵
print(Y.toarray())                # 输出转换为tf-idf后的 Y 矩阵
```
输出为：
```
[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]
```
TfidfVectorizer

TfidfVectorizer 相当于 CountVectorizer 和 TfidfTransformer 的结合使用。上面代码先调用了 CountVectorizer，然后调用了 TfidfTransformer。使用 TfidfVectorizer 可以简化代码如下：
```
# 把每个设备的 app 列表转换为字符串，以空格分隔
apps=deviceid_packages['apps'].apply(lambda x:' '.join(x)).tolist()
vectorizer=CountVectorizer()
transformer=TfidfTransformer()
# 原来的 app 列表 转换为计数的稀疏矩阵。
cntTf = vectorizer.fit_transform(apps)
# 得到 tf-idf 矩阵
tfidf=transformer.fit_transform(cntTf)
# 得到所有的 APP 列表，相当于词典
word=vectorizer.get_feature_names()
```
如果你觉得这篇文章对你有帮助，不妨点个赞，让我有更多动力写出好文章。

我的文章会首发在公众号上，欢迎扫码关注我的公众号张贤同学。
相关阅读:
在C语言中，double、long、unsigned、int、char类型数据所占字节数
 SIFT算法的应用--目标识别之Bag-of-words模型
 公司笔试客观题
 程序的内存分配 CC++
C++编程练习(14)-------“单例模式”的实现
 SSH框架：同一个工程之前可以正常运行，现在不能
 严重: Exception starting filter struts2 Unable to load configuration.
Oracle SQL Developer出现错误【ora-28002:the password will expire within 7 days】的解决办法
 jQuery 属性操作
 前端模块化开发应用——日历组件开发
原文地址：https://www.cnblogs.com/zhangxiann/p/13490607.html