• --爬虫梳理--


    一、爬虫

    Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。

    Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。

    二、基本操作requests

    常用的request请求方式:

    1.GET请求

    方式一、
    r1 = requests.get('https://github.com/login') #请求的登录页面,
    
    print(r1.text) #通过请求,获取html页面,以字符串的方式返回
    
    
    方式二、
    
    import requests
      
    payload = {'key1': 'value1', 'key2': 'value2'}
    ret = requests.get("http://httpbin.org/get", params=payload)
      
    print(ret.url)#打印请求的url
    print(ret.text)
    

      

    2.POST请求

    # 1、基本POST实例
      
    import requests
      
    payload = {'key1': 'value1', 'key2': 'value2'}
    ret = requests.post("http://httpbin.org/post", data=payload)
      
    print ret.text
      
      
    # 2、发送请求头和数据实例
      
    import requests
    import json
      
    url = 'https://api.github.com/some/endpoint'
    payload = {'some': 'data'}
    headers = {'content-type': 'application/json'}
      
    #请求发送的数据,需加上headers,默认是自带的...
    ret = requests.post(url, data=json.dumps(payload), headers=headers)
      
    print(ret.text)
    print(ret.cookies)#通过cookies再去访问站内其他的页面
    

      

    3.其他的请求方式:

    requests.get(url, params=None, **kwargs)
    requests.post(url, data=None, json=None, **kwargs)
    requests.put(url, data=None, **kwargs)
    requests.head(url, **kwargs)
    requests.delete(url, **kwargs)
    requests.patch(url, data=None, **kwargs)
    requests.options(url, **kwargs)
      
    # 以上方法均是在此方法的基础上构建
    requests.request(method, url, **kwargs)
    

      

    4.其他参数的示例:

    #!/usr/bin/python
    # -*- coding: UTF-8 -*-
    
    import requests
    
    def _method_url():
        '''
        method:请求的类型
        url:请求的路径
        :return:
        '''
        response = requests.request(method='post', url='http://www.baidu.com')
    
    
    def _param():
        # - 可以字典方式
        # - 可以是字符串方式
        # - 可以字节方式
    
        r1 = requests.get(
            url='htpp://www.baidu.com',
            params={"user": "yang", "pwd": "123"}
        )  # - --字典方式
    
        r2 = requests.get(
            url='htpp://www.baidu.com',
            params="user=yang&pwd=123"
        )  # - --字符串方式
    
        r3 = requests.get(
            url='htpp://www.baidu.com',
            params=bytes("user=yang&pwd=123", encoding='utf-8')
        )  # ---字节方式
    
        #编码报错...
        r4 = requests.request(method='get',
        url='http://www.baidu.com',
        params=bytes("k1=v1&k2=水电费&k3=v3&k3=vv3", encoding='utf8'))
    
    
    def _data():
        '''
        post:只有psot发送请求才可data
        :return:
        '''
        # 可以是字典
        # 可以是字符串
        # 可以是字节
        # 可以是文件对象
    
        r1 = requests.post(
            url='htpp://www.baidu.com',
            data={
                "user": "yangxiang",
                "commit": "sing in",
            }
        ) #- --字典方式
    
        r2 = requests.post(
            url='htpp://www.baidu.com',
            data="user=yang;pwd=123"
        ) #- --字符串方式, 以;分割,
    
        r3 = requests.post(
            url='htpp://www.baidu.com',
            data=bytes("user=yang;pwd=123", encoding='utf-8')
        ) #- --字符串方式, 以;分割
    
        r4 = requests.post(
            url='htpp://www.baidu.com',
            data=open('data.file.py', mode='r', encoding='utf-8')  # 文件内容需要是k1=v1;k2=v2;k3=v3;k3=v4
        ) #- --文件传输方式, 以;分割
    
    
    def _json():
        #将json中对应的数据进行序列化成一个字符串,json.dumps(....)
        #然后发送到服务端的body中,并且Content-Type是{'Content-Type': 'application/json'}
        r1 = requests.post(
            url = 'http://www.baidu.com',
            json={'k1':'v1','k2':'v2'},
        )
    
    
    def _headers():
        #发送请求头到服务端
        #请求头的方式Content-Type是{'Content-Type': 'application/x-www-form-urlencoded'}
        r1 = requests.post(
            url='http://www.baidu.com',
            json={'k1': 'v1', 'k2': 'v2'},
            headers={'Content-Type': 'application/x-www-form-urlencoded'}
        )
    
    
    def _cookies():
        #发送cookies到服务端
        r1 = requests.post(
            url='http://www.baidu.com',
            data={
                "user": "yangxiang",
                "commit": "sing in",
            },
            cookies={'cookie':'value'}
        )
    
        #也可以使用cookiesJar(字典形式就是在此基础上封装的)
        from http.cookiejar import CookieJar
        from http.cookiejar import Cookie
    
        obj = CookieJar()
        obj.set_cookie(Cookie(version=0, name='c1', value='v1', port=None, domain='', path='/', secure=False, expires=None,
                              discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False,
                              port_specified=False, domain_specified=False, domain_initial_dot=False, path_specified=False)
                       )
        requests.request(method='POST',
                         url='http://127.0.0.1:8000/test/',
                         data={'k1': 'v1', 'k2': 'v2'},
                         cookies=obj)
    
    
    def _files():
    
        # 发送文件
        file_dict = {
        'f1': open('readme', 'rb')
        }
        requests.request(method='POST',
        url='http://127.0.0.1:8000',
        files=file_dict)
    
        # 发送文件,定制文件名
        file_dict = {
        'f1': ('test.txt', open('readme', 'rb'))
        }
        requests.request(method='POST',
        url='http://127.0.0.1:8000',
        files=file_dict)
    
        # 发送文件,定制文件名
        file_dict = {
        'f1': ('test.txt', "hahsfaksfa9kasdjflaksdjf")
        }
        requests.request(method='POST',
        url='http://127.0.0.1:8000',
        files=file_dict)
    
        # 发送文件,定制文件名
        file_dict = {
            'f1': ('test.txt', "hahsfaksfa9kasdjflaksdjf", 'application/text', {'k1': '0'})
        }
        requests.request(method='POST',
                         url='http://127.0.0.1:8000',
                         files=file_dict)
    
    
    def _auth():
        '''基本的验证方式'''
        from requests.auth import HTTPBasicAuth,HTTPDigestAuth
    
        res = requests.get('https://api.github.com/user',
                           auth=HTTPBasicAuth('yang','efsdfsadf'))
        print(res.text)
    
        # ret = requests.get('http://192.168.1.1',
        # auth=HTTPBasicAuth('admin', 'admin'))
        # ret.encoding = 'gbk'
        # print(ret.text)
    
        # ret = requests.get('http://httpbin.org/digest-auth/auth/user/pass', auth=HTTPDigestAuth('user', 'pass'))
        # print(ret)
        #
    
    
    def _timeout():
        #访问超时时间
        # res = requests.get('http://www.baidu.com',timeout=2)
        # print(res)
    
        res = requests.get('http://www.baidu.com',timeout=(5,1))
        print(res)
    
    
    def _allow_redirects():
        '''是否允许重定向  allow_redirects=False'''
        ret = requests.get('http://www.baidu.com', allow_redirects=False)
        ret.encoding = ret.apparent_encoding
        print(ret.text)
    
    
    def _proxies():
        '''
        代理,
        通过ip的限制,网站会根据ip访问的次数进行限制登录,
        那么就需要代理,获取和诺ip来进行访问
        '''
        proxies = {
        "http": "61.172.249.96:80",
        "https": "http://61.185.219.126:3128",
        }
    
        proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'}
    
        ret = requests.get("http://www.proxy360.cn/Proxy", proxies=proxies)
        print(ret.headers)
    
    
        from requests.auth import HTTPProxyAuth
    
        proxyDict = {
        'http': '77.75.105.165',
        'https': '77.75.105.165'
        }
        auth = HTTPProxyAuth('username', 'mypassword')
    
        r = requests.get("http://www.google.com", proxies=proxyDict, auth=auth)
        print(r.text)
    
    
    def _stream():
        #流的方式,超大文件,一点一点的接收
        ret = requests.get('http://127.0.0.1:8000/test/', stream=True)
        #可以打开一个文件,一点一点的写入...
        print(ret.content)
        ret.close()
    
        # 自动关闭上下文..
        from contextlib import closing
        with closing(requests.get('http://httpbin.org/get', stream=True)) as r:
            # 在此处理响应。
            for i in r.iter_content():
                print(i)
    
    
    def _session():
    
        session = requests.Session()
    
        ### 1、首先登陆任何页面,获取cookie
    
        i1 = session.get(url="http://dig.chouti.com/help/service")
    
        ### 2、用户登陆,携带上一次的cookie,后台对cookie中的 gpsd 进行授权
        i2 = session.post(
            url="http://dig.chouti.com/login",
            data={
                'phone': "8615131255089",
                'password': "xxxxxx",
                'oneMonth': ""
            }
        )
    
        i3 = session.post(
            url="http://dig.chouti.com/link/vote?linksId=8589623",
        )
        print(i3.text)
    

      

     三、BeautifulSoup的基本方法操作

    使用示例:

    html_doc = """
    <html><head><title>The Dormouse's story</title></head>
    <body>
        <a href='#' class='c1'>123</a>
    </body>
    </html>
    """
    
    soup = BeautifulSoup(html_doc, features="lxml")

    1. name(标签名称)

    tag = soup.find('a')
    name = tag.name # 获取标签名称
    print(name)
    tag.name = 'span' # 设置标签
    print(soup)
    

      

    2.attr(标签属性)

    tag = soup.find('a')
    attrs = tag.attrs
    print(attrs) #获取标签的属性
    #两种设置标签属性的方式
    tag.attrs = {'id':'i1'}
    tag.attrs['id'] = 'i1'
    print(soup)
    

      

    3.children,所有子标签

    body = soup.find('body')
    v = body.children
    print(v)
    print([ v for i in v])
    

     

    4.children,获取子子孙孙的所有标签

    body = soup.find('body')
    v = body.descendants
    print(v)
    

      

    5.clear,将标签的所有子标签全部清空(保留标签名)

    tag = soup.find('body')
    tag.clear()#清除所有的子标签
    print(soup)
    

      

    6.decpmpose,递归的删除所有的标签

    body = soup.find('body')
    body.decompose()
    print(soup)
    

      

    7.extract,递归的删除所有的标签,并获取删除的标签

    body = soup.find('body')
    v = body.extract()
    print(v) #获取删除的标签
    # print(soup) #删除后的html
    

      

    8.decode,转换为字符串(含当前标签)

    decode_contents(不含当前标签)

    body = soup.find('body')
    v = body.decode()
    print(v)
    v = body.decode_contents()
    print(v)
    

      

    9.encode,转换为字节(含当前标签)

    encode——contents(不含当前标签)

    body = soup.find('body')
    v = body.encode()
    v = body.encode_contents()
    print(v)
    

      

    10.find,获取匹配的第一个标签

    tag = soup.find('a')
    print(tag)
    tag = soup.find(name='a', attrs={'class': 'c1'}, recursive=True, text='123')
    #class_:属性也可以这么的去找。也可通过attrs去查找
    # tag = soup.find(name='a', class_='sister', recursive=True, text='Lacie')
    print(tag)
    

      

    未完待续.......

  • 相关阅读:
    redis中的发布订阅(Pub/Sub)
    emmc基础技术8:操作模式3-interrupt mode
    Linux命令-tar
    git获取内核源码的方法
    Linux内核基础设施
    Linux内核简介
    emmc基础技术8:操作模式2-device identification mode
    内核子系统文档撰写方法
    eMMC基础技术6:eMMC data读写
    eMMC基础技术10:寄存器介绍
  • 原文地址:https://www.cnblogs.com/yangxiang1/p/7444301.html
Copyright © 2020-2023  润新知