• solr4.7中文分词器(ik-analyzer)配置


    solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。


    一、版本信息

    solr版本:4.7.0

    需要ik-analyzer版本:IK Analyzer 2012FF_hf1

    ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list


    二、配置步骤

    下载压缩解压后得到如下目录结构的文件夹:

    我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solrWEB-INFlib下面。

    我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

    修改core的schema.xml,在<types></types>配置项间加一段如下配置:

    1. <fieldType name="text_ik" class="solr.TextField">   
    2.      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
    3. </fieldType>  

    我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer

    我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

    1. <field name="name"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />   


    三、中文分词测试

                         
      1. IKT  
      2.       
      3. text  
      4. raw_bytes  
      5. start  
      6. end  
      7. type  
      8. position  
      9.       
      10. 中华人民共和国  
      11. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]  
      12. 0  
      13. 7  
      14. CN_WORD  
      15. 1  
      16.       
      17. 中华人民  
      18. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]  
      19. 0  
      20. 4  
      21. CN_WORD  
      22. 2  
      23.       
      24. 中华  
      25. [e4 b8 ad e5 8d 8e]  
      26. 0  
      27. 2  
      28. CN_WORD  
      29. 3  
      30.       
      31. 华人  
      32. [e5 8d 8e e4 ba ba]  
      33. 1  
      34. 3  
      35. CN_WORD  
      36. 4  
      37.       
      38. 人民共和国  
      39. [e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]  
      40. 2  
      41. 7  
      42. CN_WORD  
      43. 5  
      44.       
      45. 人民  
      46. [e4 ba ba e6 b0 91]  
      47. 2  
      48. 4  
      49. CN_WORD  
      50. 6  
      51.       
      52. 共和国  
      53. [e5 85 b1 e5 92 8c e5 9b bd]  
      54. 4  
      55. 7  
      56. CN_WORD  
      57. 7  
      58.       
      59. 共和  
      60. [e5 85 b1 e5 92 8c]  
      61. 4  
      62. 6  
      63. CN_WORD  
      64. 8  
      65.       
      66. 国  
      67. [e5 9b bd]  
      68. 6  
      69. 7  
      70. CN_CHAR  
  • 相关阅读:
    14款响应式布局的前端开发框架
    如何在本地进行微信公众号的开发调试
    微信公众帐号应用开发—本地调试
    利用H5开发微信公众号
    微信公众平台开发入门教程
    JAVA编程不得不看的几本经典书籍
    使用百度UMeditor富文本编辑器,修改自定义图片上传,修改源码
    网站建设需要哪些程序
    Visual Studio 2013 中使用断点
    Objective-c 实例变量的访问级别
  • 原文地址:https://www.cnblogs.com/rxingyue/p/4159798.html
Copyright © 2020-2023  润新知