Screen scraping 1

Screen scraping is a process whereby your program downloads Web pages and extracts information from them. Conceptually, the technique is very simple. You download the data and analyze it, you could, simply use urllib, get the Web page’s HTML source, and then use regular expressions or some such to extract the information.

use http://www.python.org/community/jobs/ as example

<h2>

<a class="reference external" href="http://www.dubizzle.com">DubizzleMiddle East</a>

(Dubai,United Arab Emirates)

</h2>

from urllib import urlopen
import re
    
p = re.compile('<h2><a .*? href="(.*?)">(.*?)</a>')
text = urlopen("http://www.python.org/community/jobs/").read()
for url, name in p.findall(text):
    print '%s (%s)' %(name, url)

作者：Shane
出处：http://bluescorpio.cnblogs.com
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

相关阅读:
梯度算法之梯度上升和梯度下降
如何用hexo+github搭建个人博客
《机器学习实战-KNN》—如何在cmd命令提示符下运行numpy和matplotlib
Python的operator.itemgetter函数和sorted函数
源代码中直接package edu.princeton.cs.algs4还是import edu.princeton.cs.algs4问题
关于在windows命令提示符cmd下运行Java程序的问题
Windows10下用Anaconda3安装TensorFlow教程
如何理解假设空间与版本空间？
在windows64位Anaconda3环境下安装XGBoost
用FastDFS一步步搭建图片服务器(单机版)

原文地址：https://www.cnblogs.com/bluescorpio/p/2513949.html