• python_爬虫_requests


    复现之前学过的爬虫!

    原因:之前学习的爬虫是在七月上旬,好几个月没有学关于这边的知识了,忘得可能差不多了,所以需要复现一下之前 学的知识,其次就是之前学的那个爬虫使用的库,是很早之前 的库,比较老,而且比较麻烦,人嘛,总得去接收一些新知识,而且那个教程的视频教的爬虫还比较浅,我也无法进阶了,所以我必须去学点新鲜玩意!简单的爬爬起来套路都一样,难的又搞不了,玩个屁哦!

    之前使用的是urllib库中的urllib.request,接下来带的是网址。直接获取整个网站上的源代码,其次在通过re表达式来进行过滤出自己想要的内容。

    然后就没啥东西了。只要就是要分析出网页的构造,添加代理,需要出创建一个 容器,现在可以说是一个对象了。学了一点关于面向对象的内容,可以解释很多了。

    新知识

    requests库

    同样是爬虫库,更方便,舒服

    对象 = requests.get(url,headers)

    返回的这个对象是报文和一个状态码,如果需要获取里面的源码则需要通过调用.text方法展示出源代码 同时也等于.content.decode("编码"),在使用抓包软件时,则需要添加一个参数,verif=False

    添加请求头

    直接定义一个字典,在里面添加请求头信息,就轻轻松松的添加了

    使用post打开网站:

    跟.get类型差不多,但是需要多加一个data,便于要提交的数据

    在少数情况下,打开的网站中文会被进行Unicode编码,所有解决的办法是

    先对内容进行编码 ,在进行解码

    n = data.encode('utf-8').decode('unicode_escape')

    在data里面中文则是Unicode编码,对他直接进行解码则不行,需先进行编码,再解码

  • 相关阅读:
    图片api
    基于NoneBot的天气查询插件
    在Linux云服务上运行酷Q机器人并DIY自己的功能
    破解zip密码的几种方法
    攻防世界wp--crypto 幂数加密
    攻防世界wp--crypto Caesar
    攻防世界wp--web command_execution
    攻防世界wp--web weak_auth
    python中yield的用法以及和yield from的区别
    Linux进阶之正则,shell三剑客(grep,awk,sed),cut,sort,uniq
  • 原文地址:https://www.cnblogs.com/Alom/p/11959949.html
Copyright © 2020-2023  润新知