爬虫之段子网

https://ishuo.cn/{i} i in ['duanzi','yulu','joke','xiaozhishi','duanyu']

import requests
import re
for i in ['duanzi','yulu','joke','xiaozhishi','duanyu']:  # 对多个页面进行爬文字
    response = requests.get(f'https://ishuo.cn/{i}')  # 模拟浏览器打开网页
    data = response.text  #

    # .匹配所有字符,*表示前面的字符0到无穷个
    content_res = re.findall('<div class="content">(.*?)</div>', data)
    title_res = re.findall('<a href="/subject/.*?">(.*?)</a>', data)
    title_res= title_res[10:60]
    title_content_dic = {}
    for i in range(len(title_res)):
        title_content_dic[title_res[i]] = content_res[i]
        # print(title_content_dic)

    # print(title_content_dic)
    for i in title_content_dic.items():
        # print(str(i)+'
')
        print(f'{i[0]:<40} | {i[1]:<1000}')

相关阅读:
MUI 实现下拉刷新上拉加载的简单例子
MySQL 游标的使用
Java 策略模式
[].slice.call(arguments,1) 个人理解
Hbuilder + MUI 的简单案例
传输SO10 (SO10 Transport)
SAP 供应商/客户的冻结及其删除操作
SAP FI CO模块常用事务代码
SAP-批量修改主数据(客户、供应商、物料)
远程主动读取数据 RFC_READ_TABLE

原文地址：https://www.cnblogs.com/dadazunzhe/p/11232539.html

爬虫之 段子网

爬虫之 段子网

爬虫之段子网

爬虫之段子网