• 基于larbin采集爬虫的辅助控制提取数据功能代码


    /*  * 项目:基于larbin采集爬虫的辅助控制提取数据功能代码  * 时间:2013-4-27  * 作者:lovelover  * 操作:

      按照以下顺序执行    1、建立数据源的目标数据库,比如:sjy_englishsoft,导入sjy_model.sql。    2、更改/pa_control_single/ 目录下conn.php的数据库连接代码。    3、

        执行以下ssh代码

        cd /pa_control_single

        1、     screen -S getcode     ./shstart_getcode.sh #(提取网页标题和内容 入库)     ctrl+A+D 退出

        2、     screen -S daxiao     ./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关)     ctrl+A+D 退出

        3、     screen -S jiance     ./shstart_jiance.sh #(打开检测save文件夹有新增文件没)     ctrl+A+D 退出

        4、     screen -S killallphp     ./shstart_killallphp #(定时杀死php保证鲜活度)       ctrl+A+D 退出

         关闭larbin进程用 killall larbin 结束

     限定某一单一网站提高效率:       1、将larbin.conf里面的waitDuration设置为1    2、将types.h里面的maxUrlsBySite修改为254;    3、main.cc 数字改成 30 15    4、larbin.conf #noExternalLinks

    */

    dingshi_daxiao.sh

    #!/bin/sh while [ 1 ] do echo "" echo "正在定时检测save大小 控制爬虫的开关。。。!" echo "" s=`du -sh -b /pa_main_single/save|awk '{print $1}'` echo "当前大小: $s。" echo "" if [ $s -gt 1000000000 ] then  echo "超过1000M了"  echo ""

     if test $( pgrep -f larbin | wc -l ) -eq 0     then         echo "爬虫关闭中,不做任何操作!"         echo ""     else         echo "发现爬虫运行中,立刻终止进程!"         echo ""   killall larbin     fi

    else

     if [ $s -gt 200000000 ]  then   echo "大于200M了,不做任何操作!"   echo ""     else

      echo "小于200M了"    echo ""

      if test $( pgrep -f larbin | wc -l ) -eq 0   then    echo "爬虫关闭中,马上开启"    echo ""    cd /pa_main_single/    ./larbin -scratch &   else    echo "爬虫运行中..."    echo ""   fi 

     fi

    fi

    echo "" echo "---------------------------------------------------"

    sleep 5 done

    dingshi_jiance.sh

    #!/bin/sh while [ 1 ] do echo "start dingshi_jiance!";

    PHP="/usr/local/php/bin/php"

    PROGRAM="/pa_control_single/aaa_jiance.php"

    #start dameo

    $PHP $PROGRAM &

    sleep 60 done

  • 相关阅读:
    P1121 环状最大两段子段和
    无题
    cdoj 1485 柱爷搞子串 sam treap
    自然数幂和
    Gym 100341C AVL Trees NTT
    线性筛分解质因子
    codeforces 366 Ant Man dp
    UVALive 6914 Maze Mayhem 轮廓线dp
    hdu 5790 Prefix 字典树 主席树
    莫比乌斯反演个人小结
  • 原文地址:https://www.cnblogs.com/zhaoguoliang/p/lovelover.html
Copyright © 2020-2023  润新知