• Ubuntu12搭建nutch1.2+tomcat7+jdk1.6


    Ubuntu12搭建nutch1.2+tomcat7+jdk1.6

    所用软件:jdk-6u24-linux-i586.bin

    apache-tomcat-7.0.27.tar.gz

    apache-nutch-1.2-bin.tar.gz

     (注:我的文档很多复制cp 指令是在root权限下进行,所以修改权限。如果在ubuntu一般用户权限下进行复制指令,则不用修改权限)

    一、安装jdk

    1、把所用到的软件拷进 /home/ubuntu  路径下,即主文件夹下

    2、在 /mnt  路径下建立tool文件夹,并把tool变为一般用户权限

    cd /mnt

    mkdir tool

    chown –R ubuntu:ubuntu tool

    3、进入tool文件,并建立java 文件夹,改为一般用户权限

    cd tool

    mkdir java

    chown –R ubuntu:ubuntu java

    4、把jdk拷进/mnt/tool/java路径下,并进行解压

    cd java

    cp /home/ubuntu/jdk-6u24-linux-i586.bin/mnt/tool/java

    sudo sh jdk-6u24-linux-i586.bin

    chown –R ubuntu:ubuntu jdk1.6.0_24

    5、配置jdk环境变量

    sudo gedit /etc/environment

    打开文件后添加PATH中添加 /mnt/tool/java/jdk1.6.0_24/bin

    export JAVA_HOME=/mnt/tool/java/jdk1.6.0_24 

    export JRE_Home=/mnt/tool/java/jdk1.6.0_24/jre 

    export CLASSPATH=$CLASSPATH:$JAVA_HOME/bin:$JAVA_HOME/jre/lib

    配置第二个文件 

    Sudo gedit /etc/profile

    在root 权限进行验证

    java -version

    自己可以再验证 java和javac 命令。正常则安装成功

    二、安装tomcat

    1、在/mnt/tool 路径下新建文件夹 Tomcat,并把apache-tomcat-7.0.27.tar.gz拷进去进行解压

    cd /mnt/tool

    mkdir Tomcat

    chown –R ubuntu:ubuntu Tomcat

    cd Tomcat

    cp /home/ubuntu/apache-tomcat-7.0.27.tar.gz/mnt/tool/Tomcat

    2、进入Tomcat路径,更改文件名,并修改权限,删除原来压缩包

    chown –R ubuntu:ubuntu apache-tomcat-7.0.27

    mv apache-tomcat-7.0.27tomcat7

    rm –rf apache-tomcat-7.0.27.tar.gz

    3、进入bin路径,配置catalina.sh文件

    cd tomcat7/bin

    sudo gedit catalina.sh

    在cygwin=false上面添加

    JAVA_HOME=/mnt/tool/java/jdk1.6.0_24

    JAVA_OPTS="-server -Xms512m -Xmx1024m -XX:PermSize=600M -XX:MaxPermSize=600m -Dcom.sun.management.jmxremote"

    4、配置 environment文件

    sudo gedit /etc/environment

    5、启动,进入/mnt/tool/Tomcat/tomcat7/bin路径,启动tomcat

    ./startup.sh

    打开浏览器输入  http://localhost:8080/

    Tomcat 安装成功

    三、安装nutch

    1、把nutch-1.2拷进 /mnt/tool 下,并对其解压

    cp /home/ubuntu/apache-nutch-1.2-bin.tar.gz /mnt/tool


    2、更改权限并删除原压缩包

    Chown –R ubuntu:ubuntu nutch-1.2

    rm –rf apache-nutch-1.2-bin.tar.gz

    3、在 nutch-1.2 下新建一个 weburls.txt,输入内容http://www.taobao.com

    cd nutch-1.2

    vi weburls.txt

    4、修改crawl-urlfilter.txt 中参数

    图形操作就行,进入/mnt/tool/nutch-1.2/conf/crawl-urlfilter.txt,改为

    MY.DOMAIN.NAME  改为  taobao.com

    改为

    5、进入 /mnt/tool/nutch-1.2/conf /  修改nutch-site.xml 如下

    6、运行网络蜘蛛,抓取网页

    进入/mnt/tool/nutch-1.2 运行

     bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2
         -dir = localweb  指明下载数据存放路径,该目录不存在时,会被自动创建
         -deptch = 2       下载深度为2
         -topN = 100      下载符合条件的前100个页面
         -threads = 2       启动的线程数目
         蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。

    更改权限  localweb和logs是新生成文件夹

    完成,看看/mnt/tool/nutch-1.2/localweb 下生产的 五个文件夹

    7、在tomcat中部署nutch 项目,把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中,稍会tomcat会对其自动解压

    cp /mnt/tool/nutch-1.2/nutch-1.2.war/mnt/tool/Tomcat/tomcat7/webapps

    修改权限

    8、修改7中目录下的 、WEB-INF/classes/nutch-site.xml 文件

    9、修改tomcat7目录下的server.xml文件

    10、重启tomcat

    在/mnt/tool/Tomcat/tomcat7/bin

    输入sudo./shutdown.sh

    sudo ./startup.sh

    四、观察结果

    在地址栏输入  localhost:8080/nutch-1.2

    输入 教育,显示如下

     

    再测试一个,输入  要啥自行车,显示如下:

     

    至此,jdk1.6+tomcat7+nutch1.2安装配置完毕。

  • 相关阅读:
    python处理中文字符的一点经验
    15个最受欢迎的Python开源框架
    一道有趣的面试题——扔鸡蛋问题
    归并排序算法学习笔记
    快速排序算法学习笔记
    python遇到‘u’开头的unicode编码
    工程实践中最常用的数据结构与算法
    OCR与车牌识别相关
    基于暗通道评估可见度流程
    Git操作
  • 原文地址:https://www.cnblogs.com/baolibin528/p/nutch.html
Copyright © 2020-2023  润新知