IKAnalyzer分词是一个开源的,基于java语言开发的轻量级的中文分词工具包。IKAnalyzer采用“正向迭代最细粒度切分算法”,支持细粒度和智能分词两种模式。支持用户字典扩展定义,不过对中英文混合词的分割没有特别好的支持。
1、下载IKAnalyzer中文分词器http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
2、解压出zip文件,将IKAnalyzer2012FF_u1.jar复制到tomcat中的solrWEB-INFlib目录中
3、在tomcat的solrWEB-INF目录中,新建一个classes文件夹,将解压出的zip文件中的IKAnalyzer.cfg.xml和stopword.dic复制到classes中
4、用记事本打开E:solrhome5.2.1core0confschema.xml文件,加入这句话到<schema/>节点内:
<fieldType name="text_cn" class="solr.TextField"> <analyzer type="index" class="org.wltea.analyzer.lucene.IKAnalyzer" /> <analyzer type="query" class="org.wltea.analyzer.lucene.IKAnalyzer" /> </fieldType> <field name="subject" type="text_cn" indexed="true" stored="true" /> <field name="content" type="text_cn" indexed="true" stored="true" />
5、启动或重启tomcat
6、进入http://localhost:8082/solr5.2.1/#/core1/analysis,输入“我是中国人,我来自张家界”。