词向量:
回顾基于检索的问答系统
倒排表解决:坑爹的翻译。。。应该翻译成“反向索引”
常规的索引是文档到关键词的映射:
文档——>关键词
但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。
于是人们发明了倒排索引~
倒排索引是关键词到文档的映射
关键词——>文档
文档——>关键词
但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。
于是人们发明了倒排索引~
倒排索引是关键词到文档的映射
关键词——>文档
语言模型介绍
解决上面的问题就是采取马尔科夫的假设:
unigram。就是单词与单词是独立的。