主要参考源 http://wiki.apache.org/nutch/NutchTutorial
第一部分:安装
1 建目录,下载,解压 mkdir nutch wget "http://mirror.bjtu.edu.cn/apache/nutch/1.5/apache-nutch-1.5-bin.tar.gz" tar zxvf apache-nutch-1.5-bin.tar.gz -C /root/wqj/nutch 2 测试,及赋予权限 bin/nutch Permission denied chmod +x bin/nutch
如果出现上图,则证明nutch1.5安装成功了
第二部分:启动简单配置的爬虫
1 添加种子 mkdir -p urls cd urls vim seed.txt
2 添加名称conf/nutch-site.xml vim conf/nutch-site.xml
3修改过滤器 vim conf/regex-urlfilter.txt 将 # accept anything else +. 替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/
4 启动爬虫
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
爬虫启动成功~