• python验证码识别


    验证码识别

    反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作

    识别验证码的操作:
    - 人工肉眼的识别
    - 第三方自动识别
    - 云打码
    模拟登录:
    - 爬取基于某些基于用户的用户信息.
    需求:对人人网进行模拟登录
    - 点击登录按钮之后会发起一个post请求
    - post请求中会携带登陆之前录入的相关的登录信息(用户名,密码,验证码......)
    - 验证码:每次请求都会变化
    需求:
    爬取当前用户的相关用户信息(个人主页中相关的用户信息)

    http/https协议特征:无状态
    没有请求到对应数据的原因:
    发起的第二次基于个人
    cookie:用来让服务器端记录客户端的相关状态
    - 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
    - 自动处理:
    - cookie值的来源是哪里?
    - 模拟登录post请求后,由服务器端创建.
    - session会话对象:
    - 作用:
    - 可以进行请求的发送。
    - 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。
    - 创建一个session对象,session= requests.Session()
    - 使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)
    - session对象对个人主页对应的get请求进行发送(携带了cookie)

    代理:
    破解封IP这种反爬机制

    什么是代理:
    - 代理服务器
    代理的作用:
    - 可以突破自身IP访问的限制
    - 可以隐藏自身IP被攻击、真实IP

    代理相关的网站:
    - 快代理
    - 西祠代理
    - www.goubanja.com

  • 相关阅读:
    Python——装饰器
    黑马Python——学习之前
    遇到的问题及解决办法——待完善
    springboot @Slf4j log 日志配置 控制台输出彩色日志并过滤DEBUG日志
    常用linux指令
    Spring Security内置 Filter 全解析
    jquery attr与prop区别。
    instanceof不能跨框架判定数组类型,必须用Array.isArray方法,实例
    font-size:em单位
    通过简单的css样式让按钮居中显示
  • 原文地址:https://www.cnblogs.com/gerenboke/p/13389060.html
Copyright © 2020-2023  润新知