基于larbin采集爬虫的辅助控制提取数据功能代码

基于larbin采集爬虫的辅助控制提取数据功能代码

/* * 项目：基于larbin采集爬虫的辅助控制提取数据功能代码 * 时间：2013-4-27 * 作者：lovelover * 操作：

  按照以下顺序执行    1、建立数据源的目标数据库，比如：sjy_englishsoft，导入sjy_model.sql。    2、更改/pa_control_single/ 目录下conn.php的数据库连接代码。    3、

   执行以下ssh代码

   cd /pa_control_single

   1、    screen -S getcode    ./shstart_getcode.sh #(提取网页标题和内容入库)    ctrl+A+D 退出

   2、    screen -S daxiao    ./shstart_daxiao.sh #(检测save文件夹大小以便控制larbin的实时开关)    ctrl+A+D 退出

   3、    screen -S jiance    ./shstart_jiance.sh #(打开检测save文件夹有新增文件没)    ctrl+A+D 退出

   4、    screen -S killallphp    ./shstart_killallphp #(定时杀死php保证鲜活度)    ctrl+A+D 退出

关闭larbin进程用 killall larbin 结束

限定某一单一网站提高效率： 1、将larbin.conf里面的waitDuration设置为1 2、将types.h里面的maxUrlsBySite修改为254； 3、main.cc 数字改成 30 15 4、larbin.conf #noExternalLinks

*/

dingshi_daxiao.sh

#!/bin/sh while [ 1 ] do echo "" echo "正在定时检测save大小控制爬虫的开关。。。!" echo "" s=`du -sh -b /pa_main_single/save|awk '{print $1}'` echo "当前大小： $s。" echo "" if [ $s -gt 1000000000 ] then echo "超过1000M了" echo ""

if test $( pgrep -f larbin | wc -l ) -eq 0     then         echo "爬虫关闭中，不做任何操作！"         echo ""     else         echo "发现爬虫运行中，立刻终止进程！"         echo ""   killall larbin     fi

else

if [ $s -gt 200000000 ] then   echo "大于200M了，不做任何操作！"   echo ""    else

  echo "小于200M了"   echo ""

  if test $( pgrep -f larbin | wc -l ) -eq 0   then    echo "爬虫关闭中，马上开启"    echo ""    cd /pa_main_single/    ./larbin -scratch &   else    echo "爬虫运行中..."    echo ""   fi

fi

fi

echo "" echo "---------------------------------------------------"

sleep 5 done

dingshi_jiance.sh

#!/bin/sh while [ 1 ] do echo "start dingshi_jiance!";

PHP="/usr/local/php/bin/php"

PROGRAM="/pa_control_single/aaa_jiance.php"

#start dameo

$PHP $PROGRAM &

sleep 60 done
相关阅读:
P1121 环状最大两段子段和
 无题
 cdoj 1485 柱爷搞子串 sam treap
自然数幂和
 Gym 100341C AVL Trees NTT
线性筛分解质因子
 codeforces 366 Ant Man dp
UVALive 6914 Maze Mayhem 轮廓线dp
hdu 5790 Prefix 字典树主席树
 莫比乌斯反演个人小结
原文地址：https://www.cnblogs.com/zhaoguoliang/p/lovelover.html