• 使用不同的方法计算TFIDF值


    摘要

    这篇文章主要介绍了计算TF-IDF的不同方法实现,主要有三种方法:

    • 用gensim库来计算tfidf值
    • 用sklearn库来计算tfidf值
    • 用python手动实现tfidf的计算

    总结

    之所以做了这方面的总结是因为最近在研究word2vec,然后涉及到了基于word2vec的文本表示方法。你用word2vec训练好的模型可以得到词的向量,然后我们可以利用这些词向量表示句子向量。


    1. 一般处理方法是把句子里涉及到的单词用word2vec模型训练得到词向量,然后把这些向量加起来再除以单词数,就可以得到句子向量。这样处理之后可以拿去给分类算法(比如LogisticRegression)训练,从而对文本进行分类。


     

    2. 还有一种是把句子里的每个单词的向量拼接起来,比如每个单词的维度是1*100

    一句话有30个单词,那么如何表示这句话的向量呢?

    把单词拼接来,最终得到这句话的向量的维度就是30*100维


     

    3. 我想做的是把句子里所有的单词用word2vec模型训练得到词向量,然后把这些向量乘以我们之前得到的tfidf值,再把它们加起来除以单词数,就可以得到句子向量。也就是结合tfidf给单词加上一个权重,评判一个单词的重要程度。


     

    4. 最后发现gensim和sklearn都不能满足我的需求,用python的方法做了一个。


     

    详情请大家看这里

    使用不同工具计算的tf-idf值对比 

    https://www.zybuluo.com/lianjizhe/note/1212780

    本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!
  • 相关阅读:
    数据库结构中的"树"
    Jquery学习
    cms系统也不复杂
    让你的博客园变灰
    IList对象排序方法
    计算机简介(二)
    在同一台电脑上使用U盘时快时慢的解决方法
    计算机简介
    合并排序
    javascript小结
  • 原文地址:https://www.cnblogs.com/lookfor404/p/9307754.html
Copyright © 2020-2023  润新知