• python学习5 爬虫老是被封如何解决


    先设置等待时间:

    常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图 1 是显性等待时间设置,图 2 是隐性。

    Python爬虫动态ip代理防止被封的方法
     
    Python爬虫动态ip代理防止被封的方法
     

    第二步,修改请求头:

    识别你是程序还是网友浏览器浏览的重要依据就是 User-Agent,比如网友用浏览器浏览就会使这个样子的 User-Agent:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36’

    Python爬虫动态ip代理防止被封的方法
     

    第三步,采用代理 ip / 建代理 ip 池

    直接看代码。利用动态 ip 代理,可以强有力地保障爬虫不会被封,能够正常运行。图 1 为使用代理 ip 的情况,图 2 是建 ip 代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量 ip 的。

    Python爬虫动态ip代理防止被封的方法
  • 相关阅读:
    linux 笔试题
    shell -Z- d等等代表
    shell中for循环总结
    linux启动过程
    linux面试题3
    linux面试题2
    小峰servlet/jsp(4)EL表达式
    小峰servlet/jsp(3)登陆功能实现
    小峰servlet/jsp(2)
    java日期比较例子等...
  • 原文地址:https://www.cnblogs.com/adret/p/12297399.html
Copyright © 2020-2023  润新知