• 文本分析 笔记


    Python 文本分析 笔记

    中文停用词处理

    自行下载 shotwords.txt,代码如下:

    def stopwordslist(filepath): 
        stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] 
        return stopwords 
     
     
    # 对句子进行分词 
    def seg_sentence(sentence): 
        sentence_seged = jieba.cut(sentence.strip()) 
        stopwords = stopwordslist('/root/stopwords.txt')  # 这里加载停用词的路径 
        outstr = '' 
        for word in sentence_seged: 
            if word not in stopwords: 
                if word != ' '
                    outstr += word 
                    outstr += " " 
        return outstr
     
  • 相关阅读:
    css随笔7
    css随笔6
    css随笔5
    *css随笔4
    css3随笔3
    css随笔2
    css随笔1
    HTML总结
    HTML随笔2
    消息转发原理
  • 原文地址:https://www.cnblogs.com/dalton/p/11354027.html
Copyright © 2020-2023  润新知