nutch-1.0命令行中搜索有结果,但是到web前端搜索,始终无结果,无论怎么配置,搜索关键字,一直提示以下令人郁闷的信息:第0-0项 (共有 0 项查询结果)
很是郁闷,今天终于解决了。
(1)浏览器解压nutch-1.0.war后修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索)
nutch-site.xml必须配置以下参数:
<property>
<name>http.agent.name</name> 必须配置,否则搜索不到结果
<value>nutch-1.0< alue>
<description>HTTP 'User-Agent' </description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\data<value> data是爬虫生成的目录。参数值请使用绝对路径
<description>Path to root of crawl.</description>
</property>
data目录是爬虫生成的目录,下面有这些目录:
crawldb,
index,
indexes,
linkdb,
segments
(2)请保证tomcat的安装目录不要出现空格,否则搜索结果永远是0
我出现问题的地方就是这里,
我的tomcat安装路径是
D:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\nutch-1.0,
这里的空格有影响,导致无结果,很痛苦,请千万注意。
(3)此是Windows环境下