原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm
思路:
1.抓取腾讯新闻列表页面: http://news.qq.com/
2.提取详细页面的url:http://news.qq.com/a/20120814/000070.htm
3.在详细页中提取新闻标题和内容
4.去除提取内容中的html标签,生成txt文档
代码:
1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 rege="http://news.qq.com/a/d{8}/d{6}.htm" 9 re_url = re.findall(rege, info) 10 return re_url 11 12 def extract_sub_web_title(sub_web): 13 re_key = "<title>.+</title>" 14 title = re.findall(re_key,sub_web) 15 return title 16 17 def extract_sub_web_content(sub_web): 18 re_key = "<div id="Cnt-Main-Article-QQ".*</div>" 19 content = re.findall(re_key,sub_web) 20 return content 21 22 def filter_tags(htmlstr): 23 re_cdata=re.compile('//<![CDATA[[^>]*//]]>',re.I) #匹配CDATA 24 re_script=re.compile('<s*script[^>]*>[^<]*<s*/s*scripts*>',re.I)#Script 25 re_style=re.compile('<s*style[^>]*>[^<]*<s*/s*styles*>',re.I)#style 26 re_p=re.compile('<Ps*?/?>')#处理换行 27 re_h=re.compile('</?w+[^>]*>')#HTML标签 28 re_comment=re.compile('<!--[^>]*-->')#HTML注释 29 s=re_cdata.sub('',htmlstr)#去掉CDATA 30 s=re_script.sub('',s) #去掉SCRIPT 31 s=re_style.sub('',s)#去掉style 32 s=re_p.sub(' ',s)#将<p>转换为换行 33 s=re_h.sub('',s) #去掉HTML 标签 34 s=re_comment.sub('',s)#去掉HTML注释 35 blank_line=re.compile(' +')#去掉多余的空行 36 s=blank_line.sub(' ',s) 37 return s 38 39 #get news 40 content = urllib2.urlopen('http://news.qq.com').read() 41 42 #get the url 43 get_url = extract_url(content) 44 45 #generate file 46 f = file('result.txt','w') 47 i = 15 #新闻起始位置,前面几条格式不一致 48 flag = 30 49 while True: 50 f.write(str(i-14)+" ") 51 52 #get the sub web title and content 53 sub_web = urllib2.urlopen(get_url[i]).read() 54 sub_title = extract_sub_web_title(sub_web) 55 sub_content = extract_sub_web_content(sub_web) 56 57 #remove html tag 58 if sub_title != [] and sub_content != []: 59 re_content = filter_tags(sub_title[0]+" "+sub_content[0]) 60 f.write(re_content.decode("gb2312").encode("utf-8")) 61 f.write(" ") 62 else: 63 flag = flag +1 64 65 if i == flag: 66 break 67 68 i = i + 1 69 print "Have finished %d news" %(i-15) 70 f.close()
说明:
urllib2模块:进行网页内容抓取
re模块:进行正则表达式提取
decode("gb2312").encode("utf-8"):因为提取网页的编码是gb2312所以要解码后在编码到utf-8显示
filter_tags:去除提取的内容的html标签,baidu可以找到这个函数,又修改了下
调试中遇到的问题:
1.Table 'polls.django_admin_log' doesn't exist
今天没事调试一下DJANGO框架的时候官方的例子出现如下错误在这记录一下吧~!
原因:数据库未同步
解决方法:python manage.py syncdb
2.IndentationError: unexpected indent python
原因:缩进错误
解决方法:删除缩进,统一用tab,注意tab设置为4空格
3.[Errno 9] Bad file descriptor
原因:读文件用了 fileopen(filename,”w”)
解决方法:fileopen(filename,”r”)
4. IndexError: list index out of range
原因:for i in range(len(List))
del len(List)
在动态删除List过程中越界
解决办法:不要动态删除,采用两个List操作
5.TypeError: expected string or buffer
原因:re_h=re.compile('</?w+[^>]*>')
s=re_h.sub('',str)
传入的str是list变量导致出错
解决办法:传入str类型变量
附:我的vim设置
要在 ~ 目录下(即用户根目录)新建 .vimrc,这样对其它用户不影响
syntax on set fileencodings=utf-8,cp936,big5,euc-jp,euc-kr,latin1,ucs-bom set fileencodings=utf-8,gbk set ambiwidth=double set langmenu=zh_CN.UTF-8 set mouse=a set nu set foldmethod=indent set sw=4 set ts=4 set smarttab set spell set tw=78 set lbr set fo+=mB set t_Co=256 //颜色覆盖问题,默认的效果太差 colorscheme default //配色方案
l
syntax on
set fileencodings=utf-8,cp936,big5,euc-jp,euc-kr,latin1,ucs-bom
set fileencodings=utf-8,gbk
set ambiwidth=double
set langmenu=zh_CN.UTF-8
set mouse=a
set nu
set foldmethod=indent
set sw=4
set ts=4
set smarttab
set spell
set tw=78
set lbr
set fo+=mB
set t_Co=256 //颜色覆盖问题,默认的效果太差
colorscheme default //配色方案