python jieba

pip install jieba

分词

import jieba 
seg_list = jieba.cut("我来到清华大学", cut_all=True)
# join 是 split 的逆操作
# 即使用一个拼接符将一个列表拼成字符感
print("/".join(seg_list) # 全模式
      
seg_list = jieba.cut("我来到清华大学", cut_all=False)
print("/".join(seg_list)) # 精确模式 默认
      
seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所，后来在日本京都大学深造") # 搜索引擎模式
print("/".join(seg_list))

关键词提取

import jieba.analyse

content = """中国特色社会主义是我们党领导的伟大事业，全部推进党的建设新的伟大工程，是这
一伟大事业取得胜利的关键所在。党坚强有力，事业才能兴旺发达，阔家才能繁荣稳定，人民才能幸
桶安康。党的十八大以来，我们党坚持党要管党、从严治党， 1疑心聚力、直击积弊、扶正被邪，党的
建设开创新局面，党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想，
为全面推进党的建设新的伟大工程进一步指明了方向。"""

# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 使用 TF-IDF 提取关键词
keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
for key, weight in keywords:
    print(key, weight)

# 使用 TextRank 提取关键词
keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
for key, weight in keywords:
    print(key, weight)

停用词

from jieba import analyse
analyse.set_stop_words("stop_word.csv")

stop_word.csv

此后
恐怕
以及
你
我
他

相关阅读:
刷题总结——宠物收养所（bzoj1208）
算法复习——trie树（poj2001）
刷题总结——bzoj2243染色
算法复习——虚树（消耗战bzoj2286）
设置SSH自动登陆（免密码，用户名）
自旋锁Spin lock与互斥锁Mutex的区别
如何去除Linux文件的^M字符
重构
比赛日程安排
基于libzip的简易压缩(zip)/解压缩(unzip)程序

原文地址：https://www.cnblogs.com/iFanLiwei/p/12833830.html