• 用TFIDF值来判断词的重要性


    TF-IDF(term frequency–inverse document frequency)是一种统计方法,用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。

    一个词在一篇文章中出现的次数并不能表明该词的重要性,例如“我们”,“的”这种常见词,我们需要TF-IDF统计方法。

    词的重要度随着它在一篇文章中出现的次数成正比增加,但同时会随着它在N篇文章(文章集合)中出现的频率成反比下降。

    在一篇给定的文章中,词频(term frequency, TF)指的是该文章中某个词出现的次数除以该文章的总词数。

    逆向文档频率(inverse document frequency, IDF)是一个词普遍重要性的度量,某一特定词的IDF值,用总文件数除以包含该词的文章数量,再将得到的商取对数(log)。计算公式:IDF = log(D/Dt),D为文章总数,Dt为该词出现的文章数量。

    TF-IDF值 = TF值 *  IDF值

    假如测试语料库中共有1000篇文章,其中一篇文章共分得100个词,其中“互联网”一词出现了5次,那么“互联网”一词在该文章中的TF值(词频)就是 5/100 = 0.05。

    如果“互联网”一词共出现在200篇文章中,那么该词的IDF值 log(1000/200)  = 2.12,该词的TF-IDF值  0.05 * 2.12 = 0.106

    再举一个常用词例子,假如“我们”在该篇文章中出现了30次,该文章共分得100个词,那么该词的词频为 30/100 = 0.3。如果“我们”一共出现在了900篇文章中,那么该词的IDF值 log(1000/900)  = 0.1,该词的TF-IDF值 0.3 * 0.1 = 0.03。

    由于“互联网”一词的TF-IDF值比“我们”要大,所以我们认为““互联网”一词的重要度要高于“我们”。

  • 相关阅读:
    rsync
    2个网卡流量的变化
    服务器端FIN的条件
    The third column indicates whether subclasses of the class declared outside this package have access to the member.;
    Java反序列化与远程代码执行

    address sizes : 46 bits physical, 48 bits virtual
    intptr_t、uintptr_t数据类型的解析
    Why should we typedef a struct so often in C?
    源码 502 回溯
  • 原文地址:https://www.cnblogs.com/iwaitu/p/2304714.html
Copyright © 2020-2023  润新知