• 文本数据处理


    1. TF-IDF

      TF-IDF是一种统计方法,用以评估一个词对一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。

    2. TF-IDF使用场景

      TF-IDF加权的各种形式常被用搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

    3. 原理

      TF(Term Frequency)表示词频,即一个词在一篇文章中出现的次数,但在实际应用中会有一个漏洞,就是篇幅长的文章给定词出现的次数会更多一点,所以需要对次数进行归一化,通常用给定词的次数除以文章的总词数。

      

    其中为文章的总词数。

      IDF(Inverse Document Frenquency)表示逆文本频率指数,如果包含关键词的文档越少,则说明关键词具有很好的区分能力。某一关键词的IDF,可以用总的文章数量除以包含该关键词的文章的数量,然后对结果取对数得到

    其中为语料库文章的总数,为包含关键词w的文章数量+1。

    4. TF-IDF不足

      TF-IDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TF-IDF法认为一个单词出现的文本频数(即包含某个单词的文本数)越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪声的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF-IDF法的精度并不是很高。

      此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。

    5. 参考文献

      https://www.cnblogs.com/KeepInUp/p/10098703.html

      https://www.jianshu.com/p/0d7b5c226f39

  • 相关阅读:
    java内部类
    unityUI拖拽
    Java泛型
    java集合
    python爬取糗百段子
    python读取文件并保存到mysql数据库
    BeanShell Sampler 身份证号-jmeter
    python操作数据库
    创建身份证号
    随机生成四要素
  • 原文地址:https://www.cnblogs.com/LuckPsyduck/p/12129138.html
Copyright © 2020-2023  润新知