之前接触过一些爬虫的东西,主要是编写脚本,爬取网页上想要的信息。最近了解了一个开源搜索引擎,这几天主要配置。遇到了一些问题。下面介绍一下安装的流程:
1、安装cygwin,主要用于window下提供linux的环境。具体安装过程可以参考http://hi.baidu.com/www100/item/b79723f239cf9449932af29f。注意选择需要的工具包。
2、cygwin中安装ssh,最好配置为不需要密码即可登陆。
3、下载hadoop1.2.1,安装jdk,配置好环境变量。注意路径下有空格的时候,配置的时候要注意。可以参考http://blog.csdn.net/liu_jason/article/details/7706781。
但是配置完成后,运行wordcount,发现如下错误:
4、安装nutch2.2.1
需要下载ant进行编译,编译后。可以执行runtime/local/bin。也遇到了一些错误,经过查询依次解决。但是执行实例后,什么都没抓到。
这个问题最终解决了,我主要是将nutch抓到的数据存储到数据库就看到结果了。
其中nutch配置mysql主要参考的博客 http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html
最终显示
数据库保存了数据
希望有遇到相同问题的,多多指教!