• Python爬虫入门教程 9-100 河北阳光理政投诉板块


    1.河北阳光理政投诉板块-写在前面

    之前几篇文章都是在写图片相关的爬虫,今天写个留言板爬出,为另一套数据分析案例的教程做做准备,作为一个河北人,遵纪守法,有事投诉是必备的技能,那么咱看看我们大河北人都因为什么投诉过呢?

    今天要爬取的网站地址 http://yglz.tousu.hebnews.cn/l-1001-5-,一遍爬取一遍嘀咕,别因为爬这个网站在去喝茶,再次声明,学习目的,切勿把人家网站爬瘫痪了。

    9150e4e5ly1fw2rty1f7rg208w08w0v1.gif

    2.河北阳光理政投诉板块-开始撸代码

    今天再次尝试使用一个新的模块 lxml ,它可以配合xpath快速解析HTML文档,官网网站 https://lxml.de/index.html
    利用pip安装lxml,如果安装失败,可以在搜索引擎多搜搜,内容很多,100%有解决方案。

    pip install lxml
    

    废话不多说,直接通过requests模块获取百度首页,然后用lxml进行解析

    import requests
    from lxml import etree  # 从lxml中导入etree
    
    response 
  • 相关阅读:
    Oracle expdp 多表导出处理
    字符串
    Java设计模式
    多线程
    Java面向对象练习
    Java面向对象基础
    Java基础算法
    Java常识
    DOS基础命令(1)
    Java基础练习
  • 原文地址:https://www.cnblogs.com/hzcya1995/p/13311589.html
Copyright © 2020-2023  润新知