tf-idf

　　tf-idf（英语：term frequency–inverse document frequency）是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

在一份给定的文件里，词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数（term count）的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语 $t_{{i}}$

第一步，计算词频。

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

相关阅读:
H5 移动端相册拍照录音录像,然后上传后台
h5 移动端调用相机摄像机录音机获取文件,并下载到本地
Java 判断字符串是否含有数字字母特殊字符
java 以0开头的数字计算,保留开头0
Spring 与hibernate 整合，测试数据连接
http://blog.csdn.net/basycia/article/details/52205916
MySQL数据库基础知识002
数据库基础知识001
数组排序
输出杨辉三角

原文地址：https://www.cnblogs.com/zhengzhe/p/8983609.html