中文分词模块--jieba笔记

里面主要罗列一些常用方法

#!/usr/bin/env python
#-*- coding:utf-8 -*-


import jieba

jieba.load_userdict("mydict.txt")  #导入自己的词典
jieba.add_word('西城校区')  #添加词进入词典
jieba.del_word('去了')     #在词典中删除一个词
jieba.suggest_freq('台中', True)  #可调节单个词语的词频，使其能（或不能）被分出来
#注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

seg_list = jieba.cut("今天有关云计算的会议很好，所以我去了西城校区的北京建筑大学还有山东台中的人们", HMM=False)  #默认是精确搜索模式，
#seg_list = jieba.cut("今天有关云计算的会议很好，所以我去了西城校区的北京建筑大学",call_all=True)  #全文搜索模式
#seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print "/".join(seg_list)

总的来说很容易上手，大家可以通过pip install jieba来进行安装

相关阅读:
[ 字典树题目 ]
AC Challenge [ ACM-ICPC 2018 南京赛区网络预赛 ] [dfs + 二进制记忆化搜索 ]
ACM-ICPC 2018 南京赛区网络预赛 J.Sum [ 类打表 ]
Bzoj 3224.普通平衡树 [ 权值线段树 ]
IP：网际协议
网络概述
HashSet
idea中git各颜色文件含义
keytool证书管理
openssl证书管理

原文地址：https://www.cnblogs.com/fuzzier/p/6518206.html