PYTHON 爬虫 baidu美女图片

from urllib import request
import re 
import os
def main():
    #page=request.urlopen("http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fr=&sf=1&fmq=1461834053046_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&itg=0&ie=utf-8&word=%E5%A4%B4%E5%83%8F#z=0&pn=&ic=0&st=-1&face=0&s=0&lm=-1" )   
# "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E4%B8%AD%E5%9B%BD&oq=%E4%B8%AD%E5%9B%BD&rsp=-1")       
page = request.urlopen("https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3&oq=%E7%BE%8E%E5%A5%B3&rsp=-1")     
context=page.read().decode('utf-8')     
pic=re.findall("https://.*?jpg",context)     
count = 0;  # 文件的起始名称为 0     
for  url in pic:         
print(url)         
bytes = request.urlopen(url);         
if (url.find('.') != -1):  # 2             
  name =url[url.find('.',  len(url) - 5):];             
  f = open("D:/image/" + str(count) + name, 'wb');  # 代开一个文件，准备以二进制写入文件             
  f.write(bytes.read());  # write并不是直接将数据写入文件，而是先写入内存中特定的缓冲区             
  f.flush();  # 将缓冲区的数据立即写入缓冲区，并清空缓冲区             
  f.close();  # 关闭文件             
  count += 1;
if __name__ == '__main__':
main()

相关阅读:
Mybatis与Hibernate概述
Linux命令中：rsync和scp之间的区别
更改了ssh文件下，还没有权限
karaf 控制台常用linux指令(2)
karaf 控制台常用linux指令(1)
POM文件详解(2)
POM文件详解(1)
maven配置parent pom查找策略
排序算法性能比较
Eclipse下用NDK编译生成so文件

原文地址：https://www.cnblogs.com/tuozizhang/p/11086546.html