• Solr4.10.2集成Nutch1.9与自带UI界面使用


    Solr4.10.2集成Nutch1.9与自带UI界面使用

    一、Solr4.10.2与Nutch1.9集成

     

    环境:Solr4.10.2已经配置在Tomcat上

    Solr的Tomcat配置详见Solr4.10.2的Tomcat配置

     

    NUTCH_DIR/conf/schema-solr4.xml拷贝到SOLR_HOME/collection1/conf/,重命名为schema.xml,并在<fields>...</fields>最后添加一行

    1. <field name="_version_" type="long" indexed="true" stored="true" multiValued="false"/>  

    重启Tomcat后即可用Nutch的crawl命令带上solrURL参数进行爬取索引工作了

    Nutch1.9的命令使用详见Nutch1.9安装配置与基本使用介绍


    在爬取索引后进入solr管理界面可以看到solr下已经有索引好的数据了:



    二、Solr4.10.2的自带UI界面(Solritas)

     

    1.拷贝solr-4.10.2contribvelocitylib以及solr-4.10.2dist下面的所有jar包到SOLR_SERVERWEB-INFlib目录下

     

    2.如果不进行上一步集成Nutch,这一步就可以跳过了,如果集成了Nutch则需要在新的schema.xml文件中继续添加配置

    ①    在</types>前加上

    1.  <!-- Money/currency field type. Seehttp://wiki.apache.org/solr/MoneyFieldType  
    2.       Parameters:  
    3.         defaultCurrency: Specifies thedefault currency if none specified. Defaults to "USD"  
    4.         precisionStep:   Specifies the precisionStep for the TrieLongfield used for the amount  
    5.         providerClass:   Lets you plug in other exchange providerbackend:  
    6.                         solr.FileExchangeRateProvider is the default and takes one parameter:  
    7.                            currencyConfig:name of an xml file holding exchange rates  
    8.                         solr.OpenExchangeRatesOrgProvider uses rates from openexchangerates.org:  
    9.                            ratesFileLocation:URL or path to rates JSON file (default latest.json on the web)  
    10.                            refreshInterval:Number of minutes between each rates fetch (default: 1440, min: 60)  
    11. -->  
    12.  <fieldType name="currency"class="solr.CurrencyField" precisionStep="8"defaultCurrency="USD" currencyConfig="currency.xml" />  
    13.   
    14.  <!-- boolean type: "true" or "false" -->  
    15.  <fieldType name="boolean" class="solr.BoolField"sortMissingLast="true"/>  

    ②    在</fields>前加上

    1. <field name="cat" type="string"indexed="true" stored="true" multiValued="true"/>  
    2. <field name="manu_exact" type="string"indexed="true" stored="false"/>  
    3. <field name="content_type" type="string"indexed="true" stored="true"multiValued="true"/>  
    4. <field name="price" type="float" indexed="true"stored="true"/>  
    5. <field name="popularity" type="int"indexed="true" stored="true" />  
    6. <field name="inStock" type="boolean"indexed="true" stored="true" />  
    7. <dynamicField name="*_s" type="string" indexed="true"  stored="true"/>  
    8. <dynamicField name="*_c"  type="currency" indexed="true"  stored="true"/>  
    9. <dynamicField name="*_dt" type="date"   indexed="true"  stored="true"/>  

    ③    在</schema>前加上

    1. <copyField source="author" dest="author_s"/>  
    2. <copyField source="price"dest="price_c"/>  


    ④    中文分词按照之前的方法配置就好,IK分词器配置详见Solr4.10.2的IK Analyzer分词器配置


    3.重启Tomcat,访问http://localhost:8080/solr/browse即可

     





    参考资料:Solr browse solritas的使用

    nutch1.8+solr 4 配置过程+ikanalayzer2012 中文分词器


    本文固定连接:http://blog.csdn.net/fyfmfof/article/details/42803841

  • 相关阅读:
    微信公众平台--5.其他
    微信公众平台--4.接收事件推送消息
    微信公众平台--3.普通消息交互(发送与接收)
    微信公众平台--2.获取接口调用凭据
    微信公众平台--1.开发者接入
    PHP的几种缓存方式
    缓存时PHP读写文件的方法
    PHP接收post过来的xml数据
    PHP CURL上传文件
    Linux常用命令ps,kill
  • 原文地址:https://www.cnblogs.com/jpfss/p/7908340.html
  • Copyright © 2020-2023  润新知