爬虫学习（一）

爬虫学习（一）

url：统一资源定位符

网址，a链接，可以根据url获取指定的数据

聚焦爬虫：根据特定的需求，从网上把数据去下来

爬虫实现的思路：

网页的特点：每个网页有自己的url

网页是由HTML组成的

网页传输的时候使用http和https协议

爬取的思路：

使用一个url

写python代码，模拟浏览器发送http请求

解析数据，提取出来指定的数据，通过一定的规则来进行。

urllib库

作用：是python用来模拟http请求的库，他是python自带的库

urllib.request 模拟浏览器发送求情

urllib.parse 处理URL或是他们的参数

urllib.error 抛出异常，用来处理发送请求时候出现的异常

urllib.request.urlopen(): 专门来处理url进行数据的读取

response.read()：以二进制来进行数据的读取

网上能碰到的编码个是只有两种

GBK

UTF8

二进制转化成为字符串：decode() 相当于解码

字符串变为二进制：encode() 相当于编码

更多HTTP协议问题请参考

https://blog.csdn.net/gueter/article/details/1524447
相关阅读:
php 压缩文件 zip
php 创建返回结果配置文件实例
 php 生成xml文件
 php 获取读取文件内容
 基于JAVA语言的多线程技术
 Java HTTP请求
 TCP与UDP
VC6.0 调试.dll文件
 [JNI] Java 调用 C++ dll
HTTPS与SSL
原文地址：https://www.cnblogs.com/kuangkuangduangduang/p/10363125.html