[IR课程笔记]统计语言模型

Basic idea

1.一个文档（document）只有一个主题（topic）

2.主题指的是这个主题下文档中词语是如何出现的

3.在某一主题下文档中经常出现的词语，这个词语在这个主题中也是经常出现的。

4.在某一主题下文档中不经常出现的词语，这个词语在这个主题中也是不经常出现的。

5.由此，概率计算方法可以近似为：

Ranking

当给定查询q时，怎么根据统计语言模型进行排序呢?有三种排序方法，分别是：1.Query-likelihood 2.Document-likelihood

3.Divergence (差异) of query and document models

查询q = (q_1,q_2,...,q_k),M_D表示在统计语言模型下的文档。

1.Query-likelihood

Example:

Q = “人民创造” D1 = “在漫长的历史进程中中国人民辛勤劳动不懈探索勇于创造中国人民热爱和平 ”

P(“人民”|MD1)=2/18, P(“创造”|MD1)=1/18

P(Q|MD1) = P(“人民”|MD1)*P(“创造”|MD1) = 2/18 * 1/18

2.Document-likelihood

存在的问题：a.文档的长度相差很大，很难比较 b.由于文档中出现的词很多没有出现在查询中，将会出现零频问题 c.将会出现无意义的作弊网页

解决这些问题的方法：

3.Divergence (差异) of query and document models

上式中w指的是同时出现在q和d中的词语，它的意义是用Q对D进行编码，所需要的位数

零频问题

解决方法：1.拉普拉斯平滑：把每个词的词频都加1。

2.Lindstone correction：把每个词都加一个很小的值ε。

3.Absolute Discounting：把词频不等于0的词减去一个很小的值ε，再把这些值平均分配到词频为1的词上去。

相关阅读:
几个容易混淆的集合类
ajax操作时用于提高用户体验的两段备用代码
word-wrap和word-break的区别
清除MAC OS X上的流氓软件
Windows Azure IP地址详解
实现跨云应用——基于DNS的负载均衡
Windows Azure虚拟机和云服务实例计费方式更新
证明你是你——快速开启Windows Azure多重身份验证
Windows 10 L2TP 809错误
新版Microsoft Azure Web管理控制台

原文地址：https://www.cnblogs.com/leeshum/p/4889400.html