用TFIDF值来判断词的重要性

TF-IDF（term frequency–inverse document frequency）是一种统计方法，用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。

一个词在一篇文章中出现的次数并不能表明该词的重要性，例如“我们”，“的”这种常见词，我们需要TF-IDF统计方法。

词的重要度随着它在一篇文章中出现的次数成正比增加，但同时会随着它在N篇文章（文章集合）中出现的频率成反比下降。

在一篇给定的文章中，词频(term frequency, TF)指的是该文章中某个词出现的次数除以该文章的总词数。

逆向文档频率（inverse document frequency, IDF）是一个词普遍重要性的度量，某一特定词的IDF值，用总文件数除以包含该词的文章数量，再将得到的商取对数(log)。计算公式：IDF = log(D/Dt)，D为文章总数，Dt为该词出现的文章数量。

TF-IDF值 = TF值 * IDF值

假如测试语料库中共有1000篇文章，其中一篇文章共分得100个词，其中“互联网”一词出现了5次，那么“互联网”一词在该文章中的TF值（词频）就是 5/100 = 0.05。

如果“互联网”一词共出现在200篇文章中，那么该词的IDF值 log(1000/200) = 2.12，该词的TF-IDF值 0.05 * 2.12 = 0.106

再举一个常用词例子，假如“我们”在该篇文章中出现了30次，该文章共分得100个词，那么该词的词频为 30/100 = 0.3。如果“我们”一共出现在了900篇文章中，那么该词的IDF值 log(1000/900) = 0.1，该词的TF-IDF值 0.3 * 0.1 = 0.03。

由于“互联网”一词的TF-IDF值比“我们”要大，所以我们认为““互联网”一词的重要度要高于“我们”。

相关阅读:
MySQL 常用到的几个字符处理函数
MySQL DATE_SUB查询工龄大于35的员工信息
Mysql 没有nvl()函数，却有一个类似功能的函数ifnull();
switch 循环中的case理解
批处理系统和分时系统各具有什么特点？为什么分时系统的响应比较快？
存储式计算机的主要特点是什么？
代码实现导航栏分割线
Keras函数式API介绍
Keras通过子类（subclass）自定义神经网络模型
R语言kohonen包主要函数介绍

原文地址：https://www.cnblogs.com/iwaitu/p/2304714.html