IK Analyzer ES使用

IK Analyzer ES使用
https://github.com/medcl/elasticsearch-analysis-ik

Analyzer: ik_smart , ik_max_word , Tokenizer: ik_smart , ik_max_word

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyzer 2012特性:

采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；

在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。

2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符

优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

1、IK配置文件

ik配置文件地址：
es/plugins/ik/config目录下
```
IKAnalyzer.cfg.xml：用来配置自定义词库
main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起
quantifier.dic：放了一些单位相关的词
suffix.dic：放了一些后缀
surname.dic：中国的姓氏
stopword.dic：英文停用词
```
2、ik原生最重要的两个配置文件
```
main.dic：包含了原生的中文词语，会按照这个里面的词语去分词
stopword.dic：包含了英文的停用词
```
一般像停用词，会在分词的时候，直接被干掉，不会建立在倒排索引中

3、自定义词库

（1）自己建立词库：每年都会涌现一些特殊的流行词，网红，蓝瘦香菇，喊麦，鬼畜，一般不会在ik的原生词典里，需要自己补充自己的最新的词语，到ik的词库里面去。

IKAnalyzer.cfg.xml配置内容如下：
```
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    
    <entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
     
    <entry key="ext_stopwords">custom/ext_stopword.dic</entry>
    
    
    
    
</properties>
```
可知，我们只需要补充我们的新词语到custom/mydict.dic或custom/single_word_low_freq.dic这两个字典文件其中之一即可。
一般都指定到custom/mydict.dic这里。

将停用词（如：了，的，呢等，但是这些基本的IK已经给我们都写了，如有补充，写到这里即可）指定到custom/ext_stopword.dic里

补充完后，重启ES服务，然后进行如下测试
```
GET _analyze
{
  "text": "蓝瘦香菇",
  "analyzer": "ik_max_word"
}
```
正因为当初对未来做了太多的憧憬，所以对现在的自己尤其失望。生命中曾经有过的所有灿烂，终究都需要用寂寞来偿还。
相关阅读:
金融法规
 大型网站架构演化
 用一张决策图来重新思考你的网站
 互联网产品的一般商业模式
 怎样开始冥想
 创造安宁舒适工作日的17个办法
 人生规划和GTD——"知"、"得"与"合"
立即行动的七个方法
 文件归档的学问
 入门GTD时间管理系统必读
原文地址：https://www.cnblogs.com/candlia/p/11920019.html