jieba分词中Tokenize的使用,Tokenize主要是用来返回词语在原文的弃之位置,下面贴上代码:
#-*- coding:utf-8 -*- from __future__ import unicode_literals import jieba print('-'*40) print(' 默认模式') print('-'*40) result = jieba.tokenize('永和服装饰品有限公司') for tk in result: print "word %s start: %d end:%d" % (tk[0],tk[1],tk[2]) print '-'*40 print ' 搜索模式' print '-'*40 result = jieba.tokenize('永和服装饰品有限公司', mode='search') for tk in result: print "word %s start: %d end:%d" % (tk[0],tk[1],tk[2])
运行结果为:
---------------------------------------- 默认模式 ---------------------------------------- word 永和 start: 0 end:2 word 服装 start: 2 end:4 word 饰品 start: 4 end:6 word 有限公司 start: 6 end:10 ---------------------------------------- 搜索模式 ---------------------------------------- word 永和 start: 0 end:2 word 服装 start: 2 end:4 word 饰品 start: 4 end:6 word 有限 start: 6 end:8 word 公司 start: 8 end:10 word 有限公司 start: 6 end:10