• Nutch + solr 这个配合不错哦


    因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下。

    用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI。

    首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现。

    然后在这两个地方要注意

    一是记得改Nutch过滤策略。

    Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则

    +^http://([a-z0-9]*.)*com/

    当然到你的系统要发布的时候,你可以根据你的需要改这些正则,匹配不同采集策略。
    二是schema.xml要同步的。

    Nutch和solr下应该一样的,我是用Nutch的覆盖solr的

    三是几个错误要修改好,网上基本能查到。

    主要就是改下scheme.xml里的几个参数,比如把<str name="df">text</str>值改为context呀,

    再有就是把没有分词包加到solr的sample的库目录呀,或是直接注释掉什么的,

    方法很多,大家放狗搜搜,自己再读读源码,应该很轻松搞定。

    最后就是在系统中集成的方法了,我用了solrnet,做的客户端,很轻松,查询只要3天就可以写出来,当然要做好web或是服务的话,应该也不麻烦。

    在上客户端的时候,我用的是xml形式的查询,已经有现成的封装,大家可以自己试试。

  • 相关阅读:
    [MacOS]Sublime text3 安装(一)
    [RHEL8]开启BBR
    PAT Advanced 1136 A Delayed Palindrome (20分)
    PAT Advanced 1144 The Missing Number (20分)
    PAT Advanced 1041 Be Unique (20分)
    PAT Advanced 1025 PAT Ranking (25分)
    PAT Advanced 1022 Digital Library (30分)
    PAT Advanced 1019 General Palindromic Number (20分)
    PAT Advanced 1011 World Cup Betting (20分)
    PAT Advanced 1102 Invert a Binary Tree (25分)
  • 原文地址:https://www.cnblogs.com/hamwolf/p/4125404.html
Copyright © 2020-2023  润新知