2019.1.7

import urllib.request
import urllib.error
import re
data=urllib.request.urlopen("http://bbs.hupu.com/").read()
data=data.decode("utf-8","ignore")
pat='<a href="(.*?.html)" target="_blank" title='
allurl=re.compile(pat).findall(data)
for i in range(0,len(allurl)):
    allurl[i]='https://bbs.hupu.com/'+allurl[i]
fh=open('./result.txt','a',encoding='utf8')
for i in range(0,len(allurl)):
    try:
        nowurl=allurl[i]
        print('正在爬取第'+str(i+1)+'个帖子')
        print(nowurl)
        data=urllib.request.urlopen(nowurl).read()
        data=data.decode("utf-8","ignore")
        pat='<title>
(.*?)
</title>'
        result=re.compile(pat).findall(data)
        fh.write(result[0]+'
')
        print('----打印成功----')
    except urllib.error.URLError as e:
        print('爬取第' + str(i + 1) + '个帖子失败')
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
fh.close()

相关阅读:
关于生成并发唯一性流水号的解决方案
父页面得到<iframe>
struts2 convention配置中常见配置选项及说明
Struts2下关于Calendar,date的一些处理
怎样将用户名和密码保存到Cookie中？【转】
如何调用用户控件(UserControl)的方法 .
Struts遍历标签<s：iterator>总结 .
在事业的开展上保持归零的心态
这种日子最轻松，这样的人生最快乐
诚实是人世间最珍贵的宝物，是每个人都应当坚守的伟大情操

原文地址：https://www.cnblogs.com/hesse/p/10235434.html