1、首先搭建好hadoop环境,具体过程不详细说了,网上的教程很多。
2、下载nutch,在其目录下面运行ant,将会产生runtime目录。然后配置nutch-site.xml等文件,可以参考http://wiki.apache.org/nutch/NutchHadoopTutorial。
注意的是runtime下面有一个local目录和一个deploy目录,一般博客写的都是在local目录下面运行的,这个是单机运行。而deploy目录下面运行是分布式运行。
3、nutch连接数据库mysql。只是需要修改几个配置文件即可,还要注意编码问题。
4、分布式下面运行nutch。是在deploy目录下面运行hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5。我当时参考上面这个英文的文档运行,遇到了很多问题,首先,文档中的命令是有问题的。一直报错不能找到org.apache.nutch.crawl.Crawl这个类。我把classPath都配置了,还是不行,后来一看src下面是org.apache.nutch.crawl.Crawler。
5、后来又出现了各种mysql的问题。在默认情况下mysql是不允许远程访问的。参考这个博客http://www.blogjava.net/yongboy/archive/2009/09/01/293481.html
当然其中还有各种问题,有些可能忘记了。