• python网络爬虫----1.入门首选,Requests 库的基本使用


    入门首选,Requests 库的基本使用


    1.安装

    pip3 install requests


    2.请求

    data = {
    'name': 'germey',
    'age': 25
    }
    GET 请求 r = requests.get('http://httpbin.org/get', params=data)
    注意:
    就可以将返回结果是 JSON 格式的字符串转化为字典
    print(r.json())

    抓取二进制文件
    r = requests.get('https://github.com/favicon.ico')
    open('favicon.ico', 'wb') as f:
    f.write(r.content)
    添加headers
    r = requests.get('https://static1.scrape.cuiqingcai.com/', headers=headers)

    POST 请求
    data = {'name': 'germey', 'age': '25'}
    r = requests.post("http://httpbin.org/post", data=data)

    3.响应


    import requests

    r = requests.get('https://static1.scrape.cuiqingcai.com/')
    print(type(r.status_code), r.status_code)
    print(type(r.headers), r.headers)
    print(type(r.cookies), r.cookies)
    print(type(r.url), r.url)
    print(type(r.history), r.history)

    4.高级用法


    文件上传

    files = {'file': open('favicon.ico', 'rb')}
    r = requests.post('http://httpbin.org/post', files=files)


    1,Cookies

    headers = {
    'Cookie': '_octo=GH1.1.1849343058.1576602081; _ga=GA1.2.90460451.1576602111; __Host-user_session_same_site=nbDv62kHNjp4N5KyQNYZ208waeqsmNgxFnFC88rnV7gTYQw_; _device_id=a7ca73be0e8f1a81d1e2ebb5349f9075; user_session=nbDv62kHNjp4N5KyQNYZ208waeqsmNgxFnFC88rnV7gTYQw_; logged_in=yes; dotcom_user=Germey; tz=Asia%2FShanghai; has_recent_activity=1; _gat=1; _gh_sess=your_session_info',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
    }
    r = requests.get('https://github.com/', headers=headers)

    3.这里我们可以构造一个 RequestsCookieJar 对象,然后把刚才复制的 Cookie 处理下并赋值,示例如下
    cookies = '_octo=GH1.1.1849343058.1576602081; _ga=GA1.2.90460451.1576602111; __Host-user_session_same_site=nbDv62kHNjp4N5KyQNYZ208waeqsmNgxFnFC88rnV7gTYQw_; _device_id=a7ca73be0e8f1a81d1e2ebb5349f9075; user_session=nbDv62kHNjp4N5KyQNYZ208waeqsmNgxFnFC88rnV7gTYQw_; logged_in=yes; dotcom_user=Germey; tz=Asia%2FShanghai; has_recent_activity=1; _gat=1; _gh_sess=your_session_info'
    jar = requests.cookies.RequestsCookieJar()
    headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
    }
    for cookie in cookies.split(';'):
    key, value = cookie.split('=', 1)
    jar.set(key, value)
    r = requests.get('https://github.com/', cookies=jar, headers=headers)

    Session 维持

    import requests

    s = requests.Session()
    s.get('http://httpbin.org/cookies/set/number/123456789')
    r = s.get('http://httpbin.org/cookies')
    print(r.text)

    SSL 证书验证

    我们可以使用 verify 参数控制是否验证证书,如果将其设置为 False,在请求时就不会再验证证书是否有效。如果不加 verify 参数的话,默认值是 True,会自动验证。
    response = requests.get('https://static2.scrape.cuiqingcai.com/', verify=False)
    不过我们发现报了一个警告,它建议我们给它指定证书。我们可以通过设置忽略警告的方式来屏蔽这个警告:
    import requests
    from requests.packages import urllib3

    urllib3.disable_warnings()
    response = requests.get('https://static2.scrape.cuiqingcai.com/', verify=False)
    print(response.status_code)

    5.超时设置

    1.r = requests.get('https://httpbin.org/get', timeout=1)
    2.实际上,请求分为两个阶段,即连接(connect)和读取(read)。

    上面设置的 timeout 将用作连接和读取这二者的 timeout 总和。如果要分别指定,就可以传入一个元组:
    r = requests.get('https://httpbin.org/get', timeout=(5, 30))
    3.如果想永久等待,可以直接将 timeout 设置为 None,或者不设置直接留空,因为默认是 None
    r = requests.get('https://httpbin.org/get', timeout=None)

    6.身份认证

    在访问某些设置了身份认证的网站时,例如:https://static3.scrape.cuiqingcai.com/,我们可能会遇到这样的认证窗口,如图所示:

    如果遇到了这种情况,那就是这个网站启用了基本身份认证,英文叫作 HTTP Basic Access Authentication,它是一种用来允许网页浏览器或其他客户端程序在请求时提供用户名和口令形式的身份凭证的一种登录验证方式。

    如果遇到了这种情况,怎么用 reqeusts 来爬取呢,当然也有办法。

    我们可以使用 requests 自带的身份认证功能,通过 auth 参数即可设置,示例如下:

    import requests
    from requests.auth import HTTPBasicAuth

    r = requests.get('https://static3.scrape.cuiqingcai.com/', auth=HTTPBasicAuth('admin', 'admin'))
    print(r.status_code)

    这个示例网站的用户名和密码都是 admin,在这里我们可以直接设置。

    如果用户名和密码正确的话,请求时会自动认证成功,返回 200 状态码;如果认证失败,则返回 401 状态码。

    当然,如果参数都传一个 HTTPBasicAuth 类,就显得有点烦琐了,所以 requests 提供了一个更简单的写法,可以直接传一个元组,它会默认使用 HTTPBasicAuth 这个类来认证。

    所以上面的代码可以直接简写如下:

    import requests

    r = requests.get('https://static3.scrape.cuiqingcai.com/', auth=('admin', 'admin'))
    print(r.status_code)

    此外,requests 还提供了其他认证方式,如 OAuth 认证,不过此时需要安装 oauth 包,安装命令如下:

    pip3 install requests_oauthlib

    使用 OAuth1 认证的方法如下:

    import requests
    from requests_oauthlib import OAuth1

    url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
    auth = OAuth1('YOUR_APP_KEY', 'YOUR_APP_SECRET',
    'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
    requests.get(url, auth=auth)

    7.代理设置

    某些网站在测试的时候请求几次,能正常获取内容。但是对于大规模且频繁的请求,网站可能会弹出验证码,或者跳转到登录认证页面,更甚者可能会直接封禁客户端的 IP,导致一定时间段内无法访问。

    为了防止这种情况发生,我们需要设置代理来解决这个问题,这就需要用到 proxies 参数。可以用这样的方式设置:

    import requests

    proxies = {
    'http': 'http://10.10.10.10:1080',
    'https': 'http://10.10.10.10:1080',
    }
    requests.get('https://httpbin.org/get', proxies=proxies)

    当然,直接运行这个实例或许行不通,因为这个代理可能是无效的,可以直接搜索寻找有效的代理并替换试验一下。

    若代理需要使用上文所述的身份认证,可以使用类似 http://user:password@host:port 这样的语法来设置代理,示例如下:

    import requests

    proxies = {'https': 'http://user:password@10.10.10.10:1080/',}
    requests.get('https://httpbin.org/get', proxies=proxies)

    除了基本的 HTTP 代理外,requests 还支持 SOCKS 协议的代理。

    首先,需要安装 socks 这个库:

    pip3 install "requests[socks]"

    然后就可以使用 SOCKS 协议代理了,示例如下:

    import requests

    proxies = {
    'http': 'socks5://user:password@host:port',
    'https': 'socks5://user:password@host:port'
    }
    requests.get('https://httpbin.org/get', proxies=proxies)

    Prepared Request

    我们使用 requests 库的 get 和 post 方法可以直接发送请求,但你有没有想过,这个请求在 requests 内部是怎么实现的呢?

    实际上,requests 在发送请求的时候在内部构造了一个 Request 对象,并给这个对象赋予了各种参数,包括 url、headers、data ,等等。然后直接把这个 Request 对象发送出去,请求成功后会再得到一个 Response 对象,再解析即可。

    那么这个 Request 是什么类型呢?实际上它就是 Prepared Request。

    我们深入一下,不用 get 方法,直接构造一个 Prepared Request 对象来试试,代码如下:
    复制

    from requests import Request, Session

    url = 'http://httpbin.org/post'
    data = {'name': 'germey'}
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
    }
    s = Session()
    req = Request('POST', url, data=data, headers=headers)
    prepped = s.prepare_request(req)
    r = s.send(prepped)
    print(r.text)

    这里我们引入了 Request,然后用 url、data 和 headers 参数构造了一个 Request 对象,这时需要再调用 Session 的 prepare_request 方法将其转换为一个 Prepared Request 对象,然后调用 send 方法发送,运行结果如下:

    {
    "args": {},
    "data": "",
    "files": {},
    "form": {
    "name": "germey"
    },
    "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Content-Length": "11",
    "Content-Type": "application/x-www-form-urlencoded",
    "Host": "httpbin.org",
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36",
    "X-Amzn-Trace-Id": "Root=1-5e5bd6a9-6513c838f35b06a0751606d8"
    },
    "json": null,
    "origin": "167.220.232.237",
    "url": "http://httpbin.org/post"
    }

    可以看到,我们达到了同样的 POST 请求效果。

  • 相关阅读:
    Windows 8 应用的页面导航(1)
    开发 Windows 8 Bing地图应用(6)
    Windows 8 应用的页面导航(2)
    Windows 8 生命周期管理(4)
    删除DataTable重复列,只针对删除其中的一列重复的行
    Silverlight 数据库 Silverlight Database
    广告费用 会计处理及其改进
    Query to Join Delivery Details and MTL Material Table
    SAVEPOINT
    SYNCHRONIZE
  • 原文地址:https://www.cnblogs.com/zwldyt/p/13352658.html
Copyright © 2020-2023  润新知