• MapReduce ---- TD-IDF


    1、TF-IDF

      TF-IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。描述单个term与特定document的相关性。

      TF(Term Frequency): 表示一个term与某个document的相关性。公式为: term在document中出现的次数/document中所有term出现的总次数.

      IDF(Inverse Document Frequency):表示一个term表示document的主题的权重大小。

      主要是通过包含了该term的docuement的数量和docuement set的总数量来比较的。出现的次数越多,权重越小。公式是log(D/Dt)   D是文档集合大小

    Dw是包含了该Word的文档的总数。根据关键字k1,k2,k3进行搜索结果的相关性就变成TF1*IDF1 + TF2*IDF2 + TF3*IDF3。比如document1的term总量

    为1000,k1,k2,k3在document1出现的次数是100,200,50。包含了 k1, k2, k3的docuement总量分别是1000, 10000,5000。document set的总

    量为10000。

      TF1 = 100/1000 = 0.1;                           TF2 = 200/1000 = 0.2;                           TF3 = 50/1000 = 0.05;

      IDF1 = log(10000/1000) = log(10) = 2.3; IDF2 = log(10000/100000) = log(1) = 0;  IDF3 = log(10000/5000) = log(2) = 0.69;

      这样关键字k1,k2,k3与docuement1的相关性= 0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645;其中k1比k3的比重在document1要大,k2的比重是0.

      TF/IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)。

      TF和IDF的其他解释可参阅《数学之美》(吴军著),这本书超赞。

    2、MapReduce 计算

      不讨论实现的细节,只考虑如何构造其中的Key和value。

      为了计算TF-IDF ,需要分别计算TF和IDF,TF为单词在文档中的频率,因此首先需要知道单词 word在文档Doc中出现的频度,其次需要知道当前Doc中单词的个数。

          第一个JOB计算word在Doc中的频度。

      MAP的输入:Key:行号 Value为对应文档的一行。在map函数中将每一行切分为一个个的单词,当然这么做其实是不完全正确的,比如对于词组 set

    out,其原本的意思是出发,但是将其按单词进行划分后变为 set 和out,这不是我们原本的意愿。在此,为了简单起见我们忽略这些细节。MAP的输出:

    Word@Doc   1。也就是 单词@文档名称 作为Key,Value为 1,表示 单词Word在Doc中出现了一次。

      MapReduce的会根据Key排序并组合相应的Value,因此JOB1的Reduce输入为:Key:Word@Doc  Value:1,1,1,1... 因此可以统计出单词Word在

    Doc中一共 出现了多少次。将Reduce的输出设为:Key:Doc  Value:Word->N。表示文档Doc中单词Word出现了N次。经过MapReduce的shuffle过程

    后,Reduce的输出变为:Key:Doc  Value:Word1->N1  Word2->N2,... ... ,Wordk->Nk。JOB1的Reduce输出可以作为JOB2-Map的输入。

      到此,第一个JOB就统计了单词在不同文档的频度,Reduce的输出为第二个JOB的输入。

      第二个JOB计算一个文档所有单词的个数和某一单词在文档中的频率TF。

      MAP的输入:Key:Doc  Value:Word1->N1,Word2->N2,... ...  。因此Map函数中可以计算一个文档中单词的总数Total,文档中每个单词的

    个数是已知的,因此可以计算单词Word针对文档Doc的TF。将当前MAP的输出设为:Key:Word,Value:Doc  N/Total ,也就是单词作为Key,所在文档

    Doc和对应的TF作为Value。经过shuffle后,JOB2-Reduce的输入:Key:Word,Value:Doc1 N1/Total  Doc2 N2/Total ... ... ,此时知道单词Word

    在Doc1,Doc2... 等文档中出现,通过MapReduce获取文档总数,就可以计算Word针对每个文档Doc的IDF值,此时Reduce的输出变为:Key:Word@Doc Value:TF IDF TF*IDF。

      至此,TF-IDF的计算完毕。对上述过程的优化,后续探讨。

      

      

  • 相关阅读:
    如何设置ASP.NET页面的运行超时时间
    日志文件清理工具V1.1
    【原创】日志文件清理工具V1.0
    【分享】国外后台界面HTML源码 [免费]
    【分享】仿东软OA协同办公服务管理源码
    年底发福利了——分享一下我的.NET软件开发资源
    由12306动态验证码想到的ASP.NET实现动态GIF验证码(附源码)
    【分享】元旦送礼,商业源码免费赠送!
    给大家分享一个jQuery TAB插件演示
    【分享】双12了,也没啥可送大家的,就送大家点商业源码吧!
  • 原文地址:https://www.cnblogs.com/tju-gsp/p/4130788.html
Copyright © 2020-2023  润新知