爬虫爬取妹子图

功能写的很差，简单练手

#!/usr/bin/env python
# -*- coding:utf-8 -*-


import hashlib
import re
import time

import requests  # pip3 install requests

movie_path = r'D:爬虫学习爬虫妹子图'


def get_index_page(url):
    try:
        # 模拟发送get请求
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
    except Exception:
        pass


def parse_index(index_page):
    detail_urls = re.findall('li>.*?<a href="(.*?)"', index_page, re.S)
    for detail_url in detail_urls:
        ret = detail_url.rsplit('/', maxsplit=1)[1]
        if ret:
            yield detail_url


def get_parge_url(detail_url):
    try:
        # 模拟发送get请求
        response = requests.get(detail_url,
                                headers={
                                    "Referer": "www.mzitu.com",
                                    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
                                    # 'Upgrade-Insecure-Requests': 1,
                                    # 'Cookie':'Hm_lvt_dbc355aef238b6c32b43eacbbf161c3c=1516079374; Hm_lpvt_dbc355aef238b6c32b43eacbbf161c3c=1516079794'
                                }, )

        if response.status_code == 200:
            return response.text
    except Exception:
        pass


def parse_detail(detail):
    try:
        details = re.findall('<img src="(.*?)" ', detail, re.S)
        return details[0]
    except Exception as e:
        pass


def get_movie(url,page_url):
    try:
        response = requests.get(url,
                                headers={
                                    "Referer": page_url,   # 这里解决防盗链问题
                                    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
                                },
                                )
        if response.status_code == 200:
            m = hashlib.md5()
            m.update(str(time.time()).encode('utf-8'))
            m.update(url.encode('utf-8'))
            filepath = '%s\%s.jpg' % (movie_path, m.hexdigest())
            with open(filepath, 'wb') as f:
                f.write(response.content)
                print('%s 下载成功' % url)
    except Exception:
        pass


def main():
    base_url = 'http://www.mzitu.com/xinggan/page/{0}/'
    for i in range(5):
        url = base_url.format(i)
        text = get_index_page(url)
        detail_urls = parse_index(text)
        for detail_url in detail_urls:
            detail_text = get_parge_url(detail_url)
            detail=parse_detail(detail_text)
            get_movie(detail,detail_url)
   


if __name__ == '__main__':
    main()

结果：

相关阅读:
二分图匹配【模板】
高斯消元【模板】
G. 小花梨的函数
 数字计数
 选课
 二叉苹果树
 重建道路
 【UVA10187】Headmaster's Headache（校长的烦恼）
【51NOD1447】好记的字符串
 【51NOD1779】逆序对统计
原文地址：https://www.cnblogs.com/supery007/p/8297599.html

最新文章
SpringMVC乱码解决
 静态资源导出问题
 网络YUM源
 shell脚本
 shell基础
 Linux 命令
 四大作用域
 你需要掌握的15项时间管理习惯
 SSH增删改查
 养生24时

爬虫 爬取妹子图

爬虫爬取妹子图