爬虫脚本
环境:在linux系统中运行此脚本(根据不同博客源码进行调整)
#!/bin/bash www_link=http://blog.oldboyedu.com/page/ for i in {1..4} #按博客页码爬虫 do curl ${www_link}${i}/ 2>/dev/null|grep tooltip | awk -F "[><" ]+" '{print $5"@"$7}'>>a1.txt done awk -F @ '{print "<a href="$1">"$2"</a> "}' a1.txt > curl.txt
#!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html?page= for i in {1..8} #按博客页码爬虫 do a=`curl ${www_link}${i} 2>/dev/null|grep homepage|grep -v "ImageLink"|awk -F "[><"]" '{print $7"@"$9}' >>a1.txt` done
egrep -v "pager" a1.txt >a2.txt #排除含有“pager”的行,处理后放到 b=`sed "s# ##g" a2.txt` #将文件里的空格去掉,因为for循环会将每行的空格前后作为两个变量,而不是一行为一个变量
for i in $b do c=`echo $i|awk -F @ '{print $1}'` #c=内容网址 d=`echo $i|awk -F @ '{print $2}'` #d=内容 echo "<a href="${c}">${d}</a> " >>curl.txt #curl.txt为生成a标签的文本 done
结果展示:
# tail curl.txt
<a href=http://www.cnblogs.com/clsn/p/8093301.html>JIRA敏捷开发平台部署记录</a> <a href=http://www.cnblogs.com/clsn/p/8087501.html>MySQL索引管理与执行计划</a> <a href=http://www.cnblogs.com/clsn/p/8087417.html>MySQL-Select语句高级应用</a> <a href=http://www.cnblogs.com/clsn/p/8052649.html>keepalived实现服务高可用</a>