• 25.TF&IDF算法以及向量空间模型算法


    主要知识点:

    • boolean model
    • IF/IDF
    • vector space model

       

    一、boolean model

       

    在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定termdocmust/must not/should(过滤、包含、不包含 、可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据。

       

    二、TF/IDF

       

    这一步就是esboolean model过滤出来的doc进行打分,但是这一步也只是单个termdoc中的分数。现假如:

       

    query: hello world

    doc1: java is my favourite programming language, hello world !!!

    doc2: hello java, you are very good, oh hello world!!!

       

    hellodoc1的评分

       

    TF: term frequency

       

    找到hellodoc1中出现了几次,1次,会根据出现的次数给个分数

    一个term在一个doc中,出现的次数越多,那么最后给的相关度评分就会越高

       

    IDFinversed document frequency

       

    找到hello在所有的doc中出现的次数,3

    一个term在所有的doc中,出现的次数越多,那么最后给的相关度评分就会越低

       

    length norm

       

    hello搜索的那个field的长度,field长度越长,给的相关度评分越低; field长度越短,给的相关度评分越高

       

    最后,会将hello这个term,对doc1的分数,综合TFIDFlength norm,计算出来一个综合性的分数

       

    3vector space model

       

    我们在做搜索时,搜索条件中可能会有多个term,es出来的分数结果也是对多个term的综合分数,多个term对一个doc的总分数的计算,在es中使用的是vector space model(空间向量模型),这个模型的算法很复杂,我们在使用es时不需要知道这种算法,只需要知道综合分数是由灾这种模型计算得出的就行。

  • 相关阅读:
    智慧城市开发模式研究
    区域经济、地理信息、互联网三者交叉之行业背景分析
    《矿产经济与管理》读书笔记
    郝寿义、安虎森《区域经济学》读书笔记
    京津冀区域货流预测与分析
    关于产业链招商的背景、内涵、特征和意义
    《政府与企业招商引资战略操作实务》读书笔记
    网站seo优化
    弹出窗口里有“确定”和“取消”两个按钮
    解决在网页里设置锚点后,链接不到相应位置
  • 原文地址:https://www.cnblogs.com/liuqianli/p/8527702.html
Copyright © 2020-2023  润新知