• python jieba


    pip install jieba
    

    分词

    import jieba 
    seg_list = jieba.cut("我来到清华大学", cut_all=True)
    # join 是 split 的逆操作
    # 即使用一个拼接符将一个列表拼成字符感
    print("/".join(seg_list) # 全模式
          
    seg_list = jieba.cut("我来到清华大学", cut_all=False)
    print("/".join(seg_list)) # 精确模式 默认
          
    seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所,后来在日本京都大学深造") # 搜索引擎模式
    print("/".join(seg_list))
    

    关键词提取

    import jieba.analyse
    
    content = """中国特色社会主义是我们党领导的伟大事业,全部推进党的建设新的伟大工程,是这
    一伟大事业取得胜利的关键所在。党坚强有力,事业才能兴旺发达,阔家才能繁荣稳定,人民才能幸
    桶安康。党的十八大以来,我们党坚持党要管党、从严治党, 1疑心聚力、直击积弊、扶正被邪,党的
    建设开创新局面,党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想,
    为全面推进党的建设新的伟大工程进一步指明了方向。"""
    
    # 第一个参数:待提取关键词的文本
    # 第二个参数:返回关键词的数量,重要性从高到低排序
    # 第三个参数:是否同时返回每个关键词的权重
    # 使用 TF-IDF 提取关键词
    keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    
    # 使用 TextRank 提取关键词
    keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    

    停用词

    from jieba import analyse
    analyse.set_stop_words("stop_word.csv")
    

    stop_word.csv

    此后
    恐怕
    以及
    你
    我
    他
    
  • 相关阅读:
    刷题总结——宠物收养所(bzoj1208)
    算法复习——trie树(poj2001)
    刷题总结——bzoj2243染色
    算法复习——虚树(消耗战bzoj2286)
    设置SSH自动登陆(免密码,用户名)
    自旋锁Spin lock与互斥锁Mutex的区别
    如何去除Linux文件的^M字符
    重构
    比赛日程安排
    基于libzip的简易压缩(zip)/解压缩(unzip)程序
  • 原文地址:https://www.cnblogs.com/iFanLiwei/p/12833830.html
Copyright © 2020-2023  润新知