elasticsearch 中文分词

ik分词器-下载地址：https://github.com/medcl/elasticsearch-analysis-ik
拼音分词器-下载地址：https://github.com/medcl/elasticsearch-analysis-pinyin
ansj中文分词器-下载地址：https://github.com/NLPchina/elasticsearch-analysis-ansj/tags
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量参考：https://www.cnblogs.com/lies-joker/p/4203788.html

elasticsearch 自带默认分词器，不指定的text类型会使用Standard Analyzer进行分词
Standard Analyzer 是默认的分析器。它提供了基于语法的标记化（基于Unicode文本分割算法），适用于大多数语言

ik分词器
ik_smart 分的很少
ik_max_word 分的很细

ansj中文分词器
index_ansj (建议索引使用) 是索引分词,尽可能分词处所有结果
query_ansj (建议搜索使用) 是搜索分词,是索引分词的子集,保证了准确率
dic_ansj 是用户自定义词典优先策略

拼音分词器

GET _analyze
{
  "text": "刘德华",
  "analyzer": "pinyin"
}

GET _analyze
{
  "analyzer":"ik_smart",
  "text":"中华人民共和国国歌"
}


GET _analyze
{
  "analyzer":"ik_max_word",
  "text":"中华人民共和国国歌"
}


GET _analyze
{
  "analyzer":"query_ansj",
  "text":"中华人民共和国国歌"
}

GET _analyze
{
  "analyzer":"index_ansj",
  "text":"中华人民共和国国歌"
}

相关阅读:
P1536 村村通题解
P1551 亲戚题解
P1185 绘制二叉树题解
P3884 [JLOI2009]二叉树问题
P1087 [NOIP2004 普及组] FBI 树
P1305 新二叉树题解
P1229 遍历问题
P1030 [NOIP2001 普及组] 求先序排列题解
P1827 [USACO3.4]美国血统 American Heritage 题解
深度优先搜索dfs 讲解教程

原文地址：https://www.cnblogs.com/daikainan/p/14394849.html