爬取百度贴吧楼主图片

import urllib.request
from bs4 import BeautifulSoup
import re


def validateTitle(title):
    rstr = r"[/\:*?"<>|]"  # '/  : * ? " < > |'
    new_title = re.sub(rstr, "_", title)  # 替换为下划线
    return new_title

url = "https://tieba.baidu.com/p/5407739329?see_lz=1"

request = urllib.request.Request(url)
response = urllib.request.urlopen(request)

soup = BeautifulSoup(response,'lxml')

try:
    #获取总页数
    a = soup.find(text=re.compile("回复贴"))
    total_page = a.find_next_sibling('span').string
    total_page = int(total_page)

    if total_page > 0 :
        for j in range(1,int(total_page) + 1):
            url = "https://tieba.baidu.com/p/5407739329?see_lz=1&pn="+str(j)
            request1 = urllib.request.Request(url)
            response1 = urllib.request.urlopen(request1)
            soup1 = BeautifulSoup(response1, 'lxml')
            title = soup1.title.string
            link = soup1.find_all('img',class_="BDE_Image")
            i = 1
            for li in link :
                print(li.get('src'))
                file_name = "D:/www/spider/" + validateTitle(title) + str(j) +"-"+ str(i) + ".jpg"
                print(file_name)
                urllib.request.urlretrieve(li.get('src'),file_name)
                i = i + 1
except Exception as e:
    print(e)

相关阅读:
将文献的bibtex引用格式批量转换为bibitem格式参考文献
ubuntu下webbench作网站压力测试教程【webbench安装】
Windows10安装虚拟机VMware并且安装ubuntu16系统
ubuntu 16.04系统下解决MySQL 的root用户重置密码问题
elementui 中日期时间插件结束时间大于开始时间
SqlDbType 与 .Net 数据类型对照表
可用的datatable转换成List<T>
【beyond compare4 秘钥】亲测4.1.6可用
winform 自定义控件圆按钮插件
net framework 4.0 wcf发布到IIS

原文地址：https://www.cnblogs.com/brady-wang/p/8330155.html