分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。
现在的分词器没有办法做到完全的符合人们的要求。
分词器有英文分词器和中文分词器,分词过程如下:
英文的分词器过程:输入文本-关键词切分-去停用词-形态还原-转为小写
这里需要注意:查询索引时及时原文中都是大写也需要将其全部转换为小写
中文的分词器分为:
单子分词 例:中国人 分成中,国,人
二分法人词:例 中国人:中国,国人
词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,
极易分词
庖丁分词。
扩展:
停用词:不影响语意的词。