/* * 项目:基于larbin采集爬虫的辅助控制提取数据功能代码 * 时间:2013-4-27 * 作者:lovelover * 操作:
按照以下顺序执行 1、建立数据源的目标数据库,比如:sjy_englishsoft,导入sjy_model.sql。 2、更改/pa_control_single/ 目录下conn.php的数据库连接代码。 3、
执行以下ssh代码
cd /pa_control_single
1、 screen -S getcode ./shstart_getcode.sh #(提取网页标题和内容 入库) ctrl+A+D 退出
2、 screen -S daxiao ./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关) ctrl+A+D 退出
3、 screen -S jiance ./shstart_jiance.sh #(打开检测save文件夹有新增文件没) ctrl+A+D 退出
4、 screen -S killallphp ./shstart_killallphp #(定时杀死php保证鲜活度) ctrl+A+D 退出
关闭larbin进程用 killall larbin 结束
限定某一单一网站提高效率: 1、将larbin.conf里面的waitDuration设置为1 2、将types.h里面的maxUrlsBySite修改为254; 3、main.cc 数字改成 30 15 4、larbin.conf #noExternalLinks
*/
dingshi_daxiao.sh
#!/bin/sh while [ 1 ] do echo "" echo "正在定时检测save大小 控制爬虫的开关。。。!" echo "" s=`du -sh -b /pa_main_single/save|awk '{print $1}'` echo "当前大小: $s。" echo "" if [ $s -gt 1000000000 ] then echo "超过1000M了" echo ""
if test $( pgrep -f larbin | wc -l ) -eq 0 then echo "爬虫关闭中,不做任何操作!" echo "" else echo "发现爬虫运行中,立刻终止进程!" echo "" killall larbin fi
else
if [ $s -gt 200000000 ] then echo "大于200M了,不做任何操作!" echo "" else
echo "小于200M了" echo ""
if test $( pgrep -f larbin | wc -l ) -eq 0 then echo "爬虫关闭中,马上开启" echo "" cd /pa_main_single/ ./larbin -scratch & else echo "爬虫运行中..." echo "" fi
fi
fi
echo "" echo "---------------------------------------------------"
sleep 5 done
dingshi_jiance.sh
#!/bin/sh while [ 1 ] do echo "start dingshi_jiance!";
PHP="/usr/local/php/bin/php"
PROGRAM="/pa_control_single/aaa_jiance.php"
#start dameo
$PHP $PROGRAM &
sleep 60 done