相关api:
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。
page = urllib.urlopen(url) //urllib.urlopen()方法用于打开一个url地址,urlopen(url,value),通过post方法访问并传递数据
html = page.read() //read()方法读取url的数据,
正则表达式的使用:
re模块的compile()方法把正则表达式编译成一个对象,re.findcall()方法读取html中包含正则表达式的数据。
urllib.urlretrieve(url,"filename"); //直接将远程数据下载到本地,默认的保存目录和.py文件在同一目录
urllib.urlencode(data) //可以将Json数据转换成可以post或者get传递的数据
BeautifulSoup库
BeautifulSoup(html).findAll('img',attr={})