• python爬虫爬小说网站涉及到(js加密,CSS加密)


    我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅

    一.涉及到的反爬

    • js加密

    • css加密

    • 请求头中的User-Agent以及 cookie

    二.思路

    1.对于js加密

    对于有js加密信息,我们一般就是找到他加密的js

    使用execjs模块来执行js代码即可

    怎么找可以参考我之前对于知乎的爬取

    链接点我

    2.对于css加密

    常见的css加密就是加css样式中的before或者after来插入内容

    所有呢我们一般使用

    from request-html import html

    然后利用字符串的拼接拼接成一个完整的html字符串

    然后html = HTML(html=html字符串)转换成一个html对象

    最后呢bingo调用html对象的render执行js代码把藏属性里的字符串拿出来

    3.对于cookie

    利用session这个对象进行自动存储cookie

    三.pycharm打印机制的漏洞

    这个爬小说时候会碰到

    print(response.text)的时候为空

    其实不一定是空,最好的方式再进行文件存储

  • 相关阅读:
    常见问题
    查询
    多对多关系
    prototype & __proto__
    new operator
    用户
    express.Router
    Express 应用生成器
    LeanCloud
    npm常用命令
  • 原文地址:https://www.cnblogs.com/pythonywy/p/11720943.html
Copyright © 2020-2023  润新知