自定义分词器-ik analyzer+html_strip

由于工作中的业务需要，需要定义这么一个分词器，用于对一个名为remark的字段进行分词。

其中，remark字段适用于存储富文本类型的信息，比如 这是一个接口啊

如果直接使用ik_max_word对字段进行分词，那么得到的分词结果如下图所示：

如上图，可以看到，富文本中的html标签 等，都被解析成一个token了，显然这不是我们想要的结果。

下面我们自定义一个名为my_custom_html_ik_analyzer，它基于ik_max_word创建，在ik_max_word的基础上，添加了html_strip的character filter，添加这个character filter，主要用于在分词前，先过滤掉字段中的html标签

测试：

PUT susu_test1
{
  "settings": {
      "analysis": {
        "analyzer": {
          "my_custom_html_ik_analyzer": {
            "char_filter": [
              "html_strip"
            ],
            "tokenizer": "ik_max_word"
          }
        }
      }
  }
}

如下图：

接着测试我们自定义个分词器，如下图

可以看到，诸如 等html标签，都已经被过滤掉了

相关阅读:
【后缀自动机例题】
【BZOJ-1146】网络管理Network DFS序 + 带修主席树
【BZOJ-3673&3674】可持久化并查集可持久化线段树 + 并查集
【BZOJ-2653】middle 可持久化线段树 + 二分
【Codeforces163E】e-Government AC自动机fail树 + DFS序 + 树状数组
【BZOJ-2938】病毒 Trie图 + 拓扑排序
【BZOJ-4726】Sabota？树形DP
【BZOJ-3143】游走高斯消元 + 概率期望
【BZOJ-3270】博物馆高斯消元 + 概率期望
laravel框架中所用到的依赖注入

原文地址：https://www.cnblogs.com/suhaha/p/15211108.html