搜索核心原理之网页和查询的相关性——TF-IDF

1.相关性的演进：

i.单文本词频TF（Term Frequency）

用关键词的出现的次数除以文章的总次数，做归一化处理得到TF，来屏蔽文章长度对用关键词出现次数来衡量相关性时的影响

ii.搜索关键词权重的度量IDF：

需要给每个此赋以权重，来区分查询中词的重要性：

a.一个词预测主题的能力越强，其权重越大

b.停止词（的是和这类无用词）的权重为0

逆文本频率指数IDF（Inverse Document Frequency）：公式为log(D/Dw)，其中一个关键词在Dw个网页中出现过，Dw越大，词w的权重越小

iii.相关性的度量（TF-IDF：Term Frequency/Inverse Document Frequency）：

词频的加权求和：∑TF(w)*IDF(w)

2.TF-IDF的信息量依据

i.查询中每个关键词w的权重应该反映这个词对这个查询提供了多少信息，用此的信息量来作为权重：

I(w)=-P(w)logP(w)=-(TF(w)/N)*log(TF(w)/N)

而语料库此的总数N是一定的，所以I(w)=-TF(w)*log(TF(w)/N)

漏洞：一个词在一篇文献中出现TF次和一个词在所有文献中出现TF次，信息量是一样的

ii.提出假设：

a.每篇文章的大小基本相同，均为M个词，M=N/D

b.假设在一篇文章中关键词出现的次数，与其贡献无关，那么一个词在一篇文献中出现的平均次数C(w)=TF(w)/D(w)，C(w)<M

则-TF(w)*log(TF(w)/N)=TF(w)*log(N/TF(w))=TF(w)*log(MD/C(w)D(w))=TF(w)*log(D/D(w))+TF(w)*log(M/C(w))

即I(w)=TF-IDF+TF(w)*log(M/C(w))，有TF-IDF=I(w)-TF(w)*log(M/C(w))

显然，IDF与词的信息量成正比，同时在w命中的文献中w出现的平均次数越多，C(w)越小，贡献越大

相关阅读:
Maven学习总结(九)——使用Nexus搭建Maven私服
Maven学习总结(八)——使用Maven构建多模块项目
Maven学习总结(七)——eclipse中使用Maven创建Web项目
Maven学习总结(六)——Maven与Eclipse整合
Maven学习总结(五)——聚合与继承
Maven学习总结(四)——Maven核心概念
剑指offer【12】- 二进制中1的个数
剑指offer【11】- 矩形覆盖
剑指offer【10】- 变态跳台阶
剑指offer【09】- 跳台阶

原文地址：https://www.cnblogs.com/uttu/p/6289756.html