• python 爬虫


    1.服务器渲染:在服务器端直接把HTML骨架和数据整合在一起,统一发送给浏览器

      在页面源代码当中能看到数据

    2.客户端渲染:

      第一次请求只要求一个HTML骨架,第二次请求拿到数据,进行数据展示

      在页面源代码中,看不到数据

     第一次请求拿不到数据,只要找到第二次请求的url 就能拿到数据

    使用浏览器的抓包工具

    Http协议:传递网站代码

    请求行-> 请求方式(get 一般是显示提交 请求数据一般会用到 获取 /post  上传数据 一般修改单个数据或少量数据会用到)  请求 url地址 协议

    请求头--> 放一些服务求要使用的附加信息(一般反爬虫的关键位置)

    {1.User-Agent:请求载体的身份标识  用什么发送的请求

    2.Referer:  防盗链 一般记录这次请求从哪个页面来的?反爬取会用到

    3.cookie: 本地字符串数据信息 (用户登录信息,反爬的token)}

    请求体 --> 一般放一些请求参数

    状态行 ->协议  状态码(404/500/200)

    响应头 -> 放一些客户端要使用的一些附加信息(一般反爬虫的关键位置)

    {1.cookie: 本地字符串数据信息 用户登录信息,反爬的token

    2.各种神奇的莫名其妙的字符串  经验之谈 一般都是token 字样 ,防止各种攻击和反爬}

    响应体 -> 服务器返回的真正客户端要使用的内容(html,json)等

    python利用open打开文件的方式:

    w:以写方式打开,

    a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)

    r+:以读写模式打开

    w+:以读写模式打开 (参见 w )

    a+:以读写模式打开 (参见 a )

    rb:以二进制读模式打开

    wb:以二进制写模式打开 (参见 w )

    ab:以二进制追加模式打开 (参见 a )

    rb+:以二进制读写模式打开 (参见 r+ )

    wb+:以二进制读写模式打开 (参见 w+ )

    ab+:以二进制读写模式打开 (参见 a+ )

      

  • 相关阅读:
    git 生成公钥与私钥
    Swagger PHP使用指南
    数据库需要支持emoji表情
    Lumen实现用户注册登录认证
    Laraver 框架资料
    php curl请求。header头中添加请求信息
    linux 下看所有用户 及所有组
    瀑布流下滑 发送ajax
    Linux系统中的wc
    Nginx 日志分析及性能排查
  • 原文地址:https://www.cnblogs.com/cxy0210/p/15835245.html
Copyright © 2020-2023  润新知