• 糗图-图片爬取


    糗图-图片爬取

    主要思路

    1.来到首页,查看主页有用图片存在html的规律

    2.编写re提取图片路径

    3.右键图片查看请求图片的具体路径

    4.拼接图片请求路径

    5.查看下一页界面的路径,找到界面请求路径规律

    6.work,多界面爬取指定图片爬虫

    import requests
    import re
    import os
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }
    
    def get_page(page_size):
         for i in range(1,page_size+1):
             url = f"https://www.qiushibaike.com/pic/page/{i}/?s=5222080"
             res=requests.get(url=url,headers=headers)
             #解析图片路径
             pic_list=re.findall('<div class="thumb">[sS]*?<img src="(.*?)" alt',res.text,re.S)
             for i in pic_list:
                 i='https:'+i
                 pic_res=requests.get(url=i,headers=headers).content
                 file_name=i.split("/")[-1]
                 #图片数据写入本地文件夹
                 with open(f'pic/{file_name}',"wb")as fw:
                     fw.write(pic_res)
                     print(file_name+"写入成功")
    
    if __name__ == '__main__':
        if not os.path.exists("./pic"):
            os.mkdir("./pic")
        #自定义爬取界面页数
        get_page(3)
    
    
  • 相关阅读:
    iphone 自学常用网址
    @ApiParam @RequestParam @PathVariable 用法
    @RestController 与 @Controller 注解区别
    Java:post请求
    Java:清空文件内容
    Java:追加文件内容
    Java:获取文件内容
    Java:Md5加密
    Java:获取IP地址
    docker:安装tomcat
  • 原文地址:https://www.cnblogs.com/zx125/p/11404564.html
Copyright © 2020-2023  润新知