• 爬虫学习(一)


    url:统一资源定位符

    网址,a链接,可以根据url获取指定的数据

    聚焦爬虫:根据特定的需求,从网上把数据去下来

    爬虫实现的思路:

           网页的特点:每个网页有自己的url

           网页是由HTML组成的

           网页传输的时候使用http和https协议

    爬取的思路:

           使用一个url

           写python代码,模拟浏览器发送http请求

           解析数据,提取出来指定的数据,通过一定的规则来进行。

    urllib库

          作用:是python用来模拟http请求的库,他是python自带的库

           urllib.request         模拟浏览器发送求情

           urllib.parse            处理URL或是他们的参数

           urllib.error             抛出异常,用来处理发送请求时候出现的异常

           urllib.request.urlopen():           专门来处理url进行数据的读取

    response.read():以二进制来进行数据的读取

    网上能碰到的编码个是只有两种

             GBK

             UTF8

    二进制转化成为字符串:decode()       相当于解码

    字符串变为二进制:encode()               相当于编码

          

    更多HTTP协议问题请参考

    https://blog.csdn.net/gueter/article/details/1524447

  • 相关阅读:
    php 压缩文件 zip
    php 创建返回结果配置文件 实例
    php 生成xml文件
    php 获取读取文件内容
    基于JAVA语言的多线程技术
    Java HTTP请求
    TCP与UDP
    VC6.0 调试.dll文件
    [JNI] Java 调用 C++ dll
    HTTPS与SSL
  • 原文地址:https://www.cnblogs.com/kuangkuangduangduang/p/10363125.html
Copyright © 2020-2023  润新知