阶段二：jieba关键字提取

content = "该课题针对TDI(甲苯二异氰酸酯)生产废渣污染问题，将TDI废渣进行催化水解生成TDA(甲苯二胺)单体，实现了资源再生。创新点如下：1、确定了在温和反应条件下TDA高收率的水解催化剂和相转移催化剂；2、研发了高粘度、高沸点物料的连续化液固分离技术，实现了万吨级工业化生产，并形成了工艺技术软件包；3、开发了催化剂、水的循环利用和集成换热技术，降低了能耗和生产成本。采用该工艺生产的TDA，产品检测合格，满足TDI生产和其他用户要求。该技术已获得中国和美国发明专利(CN 102633651B；US 8,658,828 B2)及实用新型专利(CN 203222567 U)，并制定了企业标准(Q/CFY01-2014)。该技术实现了TDI生产过程中排放的焦油废渣的回收利用，具有明显的经济效益、社会效益和环境效益。"

# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词
# 加载停止词（Stop Words）文本语料库
jieba.analyse.set_stop_words("stop_words.txt")
# 加载逆向文件频率（IDF）文本语料库
jieba.analyse.set_idf_path("idf.txt.big");
keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=('n','v',),)
print(keywords)

部分使用的代码，网上有相关类似的例子，为数据添加关键字，具体数据涉及数据安全，无法截图上传。

原文地址：https://www.cnblogs.com/cuijunfeng/p/12489440.html