爬取校花网视频

import requests 
import re
import hashlib
import time
from concurrent.futures import ThreadPoolExecutor

pool=ThreadPoolExecutor(50)
movie_path=r'C:mp4'

def get_page(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            return response.text
    except Exception:
        pass

def parse_index(index_page):
    index_page=index_page.result()
    urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
    for detail_url in urls:
        if not detail_url.startswith('http'):
            detail_url='http://www.xiaohuar.com'+detail_url
        pool.submit(get_page,detail_url).add_done_callback(parse_detail)

def parse_detail(detail_page):
    detail_page=detail_page.result()
    l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
    if l:
        movie_url=l[0]
        if movie_url.endswith('mp4'):
            pool.submit(get_movie,movie_url)

def get_movie(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            m=hashlib.md5()
            m.update(str(time.time()).encode('utf-8'))
            m.update(url.encode('utf-8'))
            filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
            with open(filepath,'wb') as f:
                f.write(response.content)
                print('%s 下载成功' %url)
    except Exception:
        pass

def main():
    base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
    for i in range(5):
        url=base_url.format(page_num=i)
        pool.submit(get_page,url).add_done_callback(parse_index)

if __name__ == '__main__':
    main()

相关阅读:
XML学习笔记（七）Schema语法杂项
UML和模式应用第一部分：绪论
XML学习笔记（六）Schema语法之复杂类型
XML学习笔记（四）Schema介绍篇
XML学习笔记（三）进阶篇
Xml学习笔记（二）Javascript篇
AutoItLibrary安装报错（robotframework）解决
robot framework 上个用例的输出作为下个用例的输入（Set Global Variable的用法）
robot framework ——关键字run keyword if 如何在一个条件下接多个执行语句，以及如何写复杂条件句
robot framework 如何获取隐藏元素的文本，以及可见元素的文本

原文地址：https://www.cnblogs.com/yifugui/p/8298511.html