SOLR企业搜索平台二（分词安装）

SOLR企业搜索平台二（分词安装）
标签：linux lucene 分词 solr 全文检索

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://3961409.blog.51cto.com/3951409/833417
中文分词器安装

1)下载分词器，下载地址： http://code.google.com/p/mmseg4j/downloads/list(版本自己选择吧,我用的是1.8.5)

2)解压mmseg4j-1.8.5.zip,将mmseg4j-all-1.8.5.jar和dist中的mmseg4j-solr-1.8.5.jar一并复制到tomcat的webapps\solr\WEB-INF\lib\中

3)打开{solr.home}下的solr/conf/schema.xml,加入如下代码（在types标签内加入）
1. 
2. <fieldType name="textComplex" class="solr.TextField" >
3. <analyzer>
4. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
5. </analyzer>
6. </fieldType>
7. <fieldType name="textMaxWord" class="solr.TextField" >
8. <analyzer>
9. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
10. </analyzer>
11. </fieldType>
12. <fieldType name="textSimple" class="solr.TextField" >
13. <analyzer>
14. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
15. </analyzer>
16. </fieldType>
dicPath 指定词库位置（每个MMSegTokenizerFactory可以指定不同的目录，当是相对目录时，是相对 solr.home 的目录），mode 指定分词模式（simple|complex|max-word，默认是max-word）。这段代码也可以在mmseg4j-1.8.5.zip解压目录下的readme中找到.

4)在{solr.home}的solr目录下新建名为dic文件夹

5)将mmseg4j-1.8.5/data/下所有文件复制到dic中

6)访问http://127.0.0.1:8080/solr/admin/analysis.jsp填入如下图信息

输入： solr中文分词器

如果分词的结果显示 solr|中文|分词|器

恭喜安装成功!

本文出自 “李明泽” 博客，请务必保留此出处http://3961409.blog.51cto.com/3951409/833417
相关阅读:
String和inputstream互转【转文】
shell学习笔记
 如何实现网页标题的闪动提示
 JAVAWEB项目如何实现验证码
 Oralce数据库的优化(面试必问题)
sqlldr 学习总结1
各种浏览器的Hack写法(chrome firefox ie等)
存储过程
 App Store那些事儿
 JBMP学习引导
原文地址：https://www.cnblogs.com/hhcblog/p/3855509.html

SOLR企业搜索平台 二 （分词安装）

SOLR企业搜索平台二（分词安装）