《基于时态语义的web信息检索实践进展与研究综述2018》
时态语义检索包含两个关键技术:
1. 时间信息自动提取
2. 基于时态信息的模型构建
时间信息的标注tag和提取,具体由三个主要任务构成:
1.抽取或识别时间表达
2. 归一化,对时间表达的不同形式归一化
3.对时间表达完成标注
计算Similarity(q,Di),常用的检索模型主要包括:
1. 向量空间模型
2. 概率模型
3. 基于排序的语言模型
4. 神经网络模型
基于共同的理念:文档和查询共有的词项越多,认为similarity越高
时间表达有三种:
1. 显式时间表达
2.隐式时间表达
3.相关时间表达
对于隐式时间表达,大多采用基于规则和基于统计的方法识别
时态语义检索模型要到的数学模型主要有三类:
1⃣️。 pagerank系列
2⃣️。 语言模型系列
3⃣️。 TF-IDF 和 BM25模型系列
传统检索模型仅仅将文本时间信息作为众多搜索结果排序因子的一项,例如将文档时间戳融入统计语言模型中,引入文本的时间先验分布来调整查询与文档的语义相似度。
然后随着全文检索和nlp技术的发展,融入时间信息的检索模型逐渐转为对文档内容中的时间项与查询相关性的研究。研究如何通过nlp处理完成对文本中实体的标注,并通过与相关的时间关联,把关联的实体-时间特征融入检索模型当中。
很多方法用来判定文本的时间戳,但是很少有方法来判定文献聚焦的时间。基于规则和基于统计
《From temporal expressions to temporal information: semantic tagging of news messages》
时间信息分成三类:1.显性时间表达 2.隐形时间表达 3. 相关时间表达
《隐式时间查询的文档排名方法》
d= dword+dtime
《提高Web搜索结果多样化的方法研究》
通常情况下,大多数web检索系统只是根据文档与查询的匹配度返回结果并基于排序原则PRP(probability ranking principle)对结果文档进行排序。 这样的排序结果:
1. 从内容上看会比较单一,容易造成冗余,不能满足用户对信息多样性的查询需求
2. 由于查询词的歧义性,内容的单一会造成用户找不到自己所需要的信息,并因此放弃此次查询。
因此,搜索结果多样化旨在产生排序结果集,使得前N篇文档可以覆盖用户查询的更多子意图并有较低的冗余性。
《支持搜索结果多样化的排名算法比较研究》
理论上,对于多样性问题求得最佳答案的复杂度很高,是NP-完全问题 (Carterette B. An Analysis of NP-completeness in Novelty and Diversity Ranking[J]. Information Retrieval,2011,
14( 1) : 89-106.)
绝大多数已提出的支持多样性的方法采用两阶段处理的方式:
1. 第一阶段与早期的信息检索系统相同,只考虑文档的相关性而得到文档序列作为检索结果
2. 对文档次序进行调整以提升多样性,即re-ranking。
重排技术可分为两大类:
1.显式:可通过一些外部资源了解到查询等更多信息,比如与查询主题相关的子主题检索词,数量,重要性等,在进行文档重排时,兼顾检索结果对各个子主题等涵盖。
代表有:xQuAD, PM, IA_SELECT, RxQuAD2、HistDiv等
2.隐式:不依赖外部资源提供的额外信息,只考虑已包含在检索结果的文档本身,如采用贪心算法使得排在每一个位置的文档和前面的所有文档差别最大化。或者将文档进行聚类,从而推断出隐含的子主题等
代表有:MMR,
Extending existing search techniques to the case of newspaper archives
<<Search Engines 笔记-Diversity>>
参考:http://www.shuang0420.com/2016/12/07/Search%20Engines%E7%AC%94%E8%AE%B0%20-%20Diversity/
决定文档可信度的五个方面:relevance,accuravey,objectivity, coverage,currency。(COCAR)