• tfidf 问题


    习题 6-19:(信息检索导论)

    计算查询digital cameras及文档digital cameras and video cameras的向量空间相似度并 将结果填入表6-1的空列中。假定N=10 000 000(总文档个数=N),对查询及文档中的词项权重(wf对应的列) 采用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。将 and 看成 是停用词。请在tf列中给出词项的出现频率,并计算出最后的相似度结果。
                            表6-1 习题6-19中的余弦相似度计算
     

        又题目可知:查询q: digital cameras

                         某文档:digital cameras and video cameras

    计算他们两个相似度,其实只需要求出上面那个表即可。所以编程也是,只需要code出上面表内容即可。

     答案:

    camera在单词查询项只出现1次,文档里出现2,所以tf=2.

    这里wf=1+log tf 

    所以camera在文档的wf=1.3

    idf=lg(N/df) 代入公式即可求。

    最后length(query)=query的所有词项的tf-idf 欧氏距离

    3.78=sqrt(3^2 + 2.3^2)

     计算文档和查询的tf-idf ,是用作 计算 文档评分、词项权重的。

  • 相关阅读:
    浏览器默认样式
    display
    JS中的!=、== 、!==、===的用法和区别。
    getElementsByName
    让DIV的滚动条自动滚动到最底部
    uoj118 【UR #8】赴京赶考
    [MtOI2019]幽灵乐团
    uoj213 【UNR #1】争夺圣杯
    loj6198 谢特
    [CTSC2017]密钥
  • 原文地址:https://www.cnblogs.com/lifegoesonitself/p/3116793.html
Copyright © 2020-2023  润新知