• 记一次Python爬虫入门


    今天刚装好python环境,想要练练手。找了网上的教程敲了一个简单的爬虫代码,下载lofter的图片。

    程序思路

    (1)锁定目标网站
    (2)提取HTML页面代码
    (3)findall查找图片url
    (4)保存图片

    程序步骤

    (1)确定目标网站
    在这里插入图片描述

    (2)分析该网页的代码
    在这里插入图片描述
    (3)findall查找出所有图片的url,保存到list中
    (4)遍历list,保存到本地
    在这里插入图片描述

    程序源码

    """请求网页"""
    import time
    import requests
    import re
    import os
    """请求头部"""
    headers = {
        'User-Agent' : 'lofter'
    }
    response = requests.get('https://xxx.com/',headers=headers)
    html = response.text
    """解析网页"""
    # 提取网页名,用于图片保存的文件夹名
    dir_name = re.findall('<a class="f-trans" hidefocus="true" href="/">(.*?)</a>',html)[-1]
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    # 提取所有图片的url
    urls = re.findall('<img src="(.*?)" />',html)
    print(urls)
    """保存图片"""
    for i in range(len(urls)):
    	# 延迟
        time.sleep(1)
        # 图片的名字
        file_name = str(i)
        response = requests.get(urls[i], headers=headers)
        with open(dir_name + '/' + file_name + '.jpg','wb') as f:
            f.write(response.content)
    
  • 相关阅读:
    python基础day3-今日内容,2019-6-25
    python基础day3-视频下载,2019-6-25
    append,extend,insert的区别
    DOM基础之获取元素
    p1553数组反转
    python函数
    python文件处理
    day02 python基础之列表,元祖,字典
    day01 python基础
    Python绘图Turtle库详解
  • 原文地址:https://www.cnblogs.com/does/p/13621480.html
Copyright © 2020-2023  润新知