Python爬虫

python爬去百度主页代码

import requests
r=requests.get("https://www.baidu.com/")
print(r.status_code)
r.encoding = 'utf-8'
print(r.text)

Response对象属性

response库异常函数

爬虫通用代码框架：

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status() #如果状态不是200，触发HTTPError异常
        r.encoding='utf-8'
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))

Requests 七个主要方法

URL是http协议存取资源的internet路径，一个URL对应一个数据资源

http协议对资源的操作

网络爬虫尺寸

在爬去网页或者网站时用遵守robots协议

相关阅读:
ArcMap和ArcGIS Pro加载百度地图
智能家居系列之——WIFI小车
关于GIS中Scale和Resolution的那些事儿
git cherry-pick
虚拟DOM与DOM diff
变量提升
如果判定 this 又混乱了，就从头再读一遍……
js 高程 Array
Js高程-DOM
剑指 Offer 15. 二进制中1的个数

原文地址：https://www.cnblogs.com/liberate20/p/10765571.html