• (转)淘淘商城系列——中文分析器IK-Analyzer的使用


    http://blog.csdn.net/yerenyuan_pku/article/details/72884461

    在Solr中默认是没有中文分析器的,需要手工配置,配置一个FieldType,在FieldType中指定使用的中文分析器。另外,Solr中的字段(即业务域)必须先定义后使用。下面我们先把中文分析器配好,这儿使用的中文分析器是IK Analyzer。 
    我们首先应下载IK Analyzer中文分析器,下面是我所下载的IK Analyzer。 

    接着要将IK Analyzer 2012FF_hf1目录上传到Linux系统上去,怎样将目录上传到Linux系统上,我想我已经说的要吐了,所以这儿不再浪费口舌。与以往一样,我把IK Analyzer 2012FF_hf1目录上传到了用户主目录(即root)下,如下图所示。 

    我们可以到IK Analyzer 2012FF_hf1目录下查看都有哪些文件,如下图所示。 

    • doc:IK Analyzer的文档。
    • ext_stopword.dic:停用词词典。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具,甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
    • IKAnalyzer.cfg.xml:配置文件。
    • mydict.dic:扩展词典。
    • IKAnalyzer2012FF_u1.jar:核心包。

    我们接下来把中文分析器的jar包添加到solr工程中。 

    紧接着我们需要先在/usr/local/solr/tomcat/webapps/solr/WEB-INF目录下创建一个classes目录,然后把IK Analyzer需要的扩展词典及停用词词典、配置文件复制到solr工程的classpath下。 

    注意:扩展词典及停用词词典的字符集必须是utf-8,不能使用windows记事本编辑。 
    下面我们需要配置FieldType,在哪儿进行配置呢?我们应在solrhome/collection1/conf/schema.xml中配置,我们先到schema.xml所在的目录,如下图所示。 

    然后编辑schema.xml,使用Shift+G就可以直接到文件的末尾,然后添加如下内容:

    <fieldType name="text_ik" class="solr.TextField">
        <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>

    要实现商品搜索,我们得配置业务域,在Solr中,这些业务域必须得先定义后使用,所以我们应该先定义业务域,如果要定义业务域,我们得先想想看要把哪些域导入到索引库里面去。在淘淘商城的商品搜索功能当中,我们可能用到的字段如下,由于数据库tb_item表中id字段和Solr中的id同名,我们便使用Solr的id代替商品id,也就是说,我们还需要在schema.xml文件中配置6个业务字段,最后,我们一共要向schema.xml文件中配置7个业务字段,它们分别是:
    1、商品Id
    2、商品标题
    3、商品卖点
    4、商品价格
    5、商品图片
    6、分类名称
    7、商品描述

    因此,我们在schema.xml文件的末尾添加的业务字段如下所示。

    <field name="item_title" type="text_ik" indexed="true" stored="true"/>
    <field name="item_sell_point" type="text_ik" indexed="true" stored="true"/>
    <field name="item_price"  type="long" indexed="true" stored="true"/>
    <field name="item_image" type="string" indexed="false" stored="true" />
    <field name="item_category_name" type="string" indexed="true" stored="true" />
    <field name="item_desc" type="text_ik" indexed="true" stored="false" />

    配置业务域时,type指定使用自定义的FieldType。 
    我们配置完业务域后,还要配置复制域,即在schema.xml的末尾添加复制域,如下所示,复制域的好处是可以提高查询效率,原来需要查询多个字段的,现在只需要查询一个字段就可以了(因为各个字段都把内容复制到一块儿了,查询也就方便了)。

    <field name="item_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
    <copyField source="item_title" dest="item_keywords"/>
    <copyField source="item_sell_point" dest="item_keywords"/>
    <copyField source="item_category_name" dest="item_keywords"/>
    <copyField source="item_desc" dest="item_keywords"/>

    最后,我们只须重启tomcat,重启之后,我们看看字段是否有我们刚才定义的几个,发现是有的,如下图所示。 

    下面我们来测试中文分词器是否可用,我们选择item_desc字段,我们在Field Value当中添加一段中文,然后点击”Analyse Values”按钮,就可以开始分析了,分析结果如下图所示。 

    可以看到,我们的中文分析器配置成功了。

  • 相关阅读:
    自编游戏
    宣言
    Leetcode: 12. Integer to Roman
    Leetcode: 11. Container With Most Water
    Leetcode: 10. Regular Expression Matching
    网络编程:listen函数
    网络编程:connect函数
    Leetcode: 9. Palindrome Number
    Leetcode: 8. String to Integer (atoi)
    Leetcode: 7. Reverse Integer
  • 原文地址:https://www.cnblogs.com/telwanggs/p/6961755.html
Copyright © 2020-2023  润新知