• Python爬虫 | IP池的使用


    一、简介

    - 爬虫中为什么需要使用代理

      一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会禁止这个IP的访问。所以我们需要设置一些代理IP,每隔一段时间换一个代理IP,就算IP被禁止,依然可以换个IP继续爬取。

     

    - 代理的分类:

      正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。

      反向代理:代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。

     

    - 免费代理ip提供网站

      http://www.goubanjia.com/

      西刺代理

      快代理

     

    匿名度

      - 透明:知道是代理ip,也会知道你的真实ip

      - 匿名:知道是代理ip,不会知道你的真实ip

      - 高匿:不知道是代理ip,不会知道你的真实ip

     

    类型:

      - http:只能请求http开头的url

      - https:只能请求https开头的url

     

    示例

    import requests
    
    
    headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }
    url = 'https://www.baidu.com/s?wd=ip'
    
    # 不同的代理IP,代理ip的类型必须和请求url的协议头保持一致
    proxy_list = [
         {"http": "112.115.57.20:3128"},        
         {'http': '121.41.171.223:3128'}
    ]
    
    # 随机获取代理IP
    proxy = random.choice(proxy_list)
    
    page_text = requests.get(url=url,headers=headers,proxies=proxy).text
    
    with open('ip.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    
    print('over!')

    二、IP池

    1、免费IP池

      从西刺代理上面爬取IP,迭代测试能否使用,建立一个自己的代理IP池,随时更新用来抓取网站数据

    import requests
    from lxml import etree
    import time
    import random
    from fake_useragent import UserAgent
    
    
    class GetProxyIP(object):
        def __init__(self):
            self.url = 'https://www.xicidaili.com/nn/'
            self.proxies = {
                'http': 'http://163.204.247.219:9999',
                'https': 'http://163.204.247.219:9999'}
    
        # 随机生成User-Agent
        def get_random_ua(self):
            ua = UserAgent()        # 创建User-Agent对象
            useragent = ua.random
            return useragent
    
        # 从西刺代理网站上获取随机的代理IP
        def get_ip_file(self, url):
            headers = {'User-Agent': self.get_random_ua()}
            html = requests.get(url=url, proxies=self.proxies, headers=headers, timeout=5).content.decode('utf-8', 'ignore')
            parse_html = etree.HTML(html)        
            tr_list = parse_html.xpath('//tr')              # 基准xpath,匹配每个代理IP的节点对象列表
            
            for tr in tr_list[1:]:
                ip = tr.xpath('./td[2]/text()')[0]
                port = tr.xpath('./td[3]/text()')[0]            
                self.test_proxy_ip(ip, port)                # 测试ip:port是否可用
    
        # 测试抓取的代理IP是否可用
        def test_proxy_ip(self, ip, port):
            proxies = {
                'http': 'http://{}:{}'.format(ip, port),
                'https': 'https://{}:{}'.format(ip, port), }
            test_url = 'http://www.baidu.com/'
            try:
                res = requests.get(url=test_url, proxies=proxies, timeout=8)
                if res.status_code == 200:
                    print(ip, ":", port, 'Success')
                    with open('proxies.txt', 'a') as f:
                        f.write(ip + ':' + port + '
    ')
            except Exception as e:
                print(ip, port, 'Failed')
    
        def main(self):
            for i in range(1, 1001):
                url = self.url.format(i)
                self.get_ip_file(url)
                time.sleep(random.randint(5, 10))
    
    
    if __name__ == '__main__':
        spider = GetProxyIP()
        spider.main()

    从IP池中取IP,也就是在爬虫程序中从文件随机获取代理IP

    import random
    import requests
    
    
    class BaiduSpider(object):
        def __init__(self):
            self.url = 'http://www.baidu.com/'
            self.headers = {'User-Agent': 'Mozilla/5.0'}
            self.flag = 1
    
        def get_proxies(self):
            with open('proxies.txt', 'r') as f:
                result = f.readlines()                  # 读取所有行并返回列表
            proxy_ip = random.choice(result)[:-1]       # 获取了所有代理IP
            L = proxy_ip.split(':')
            proxy_ip = {
                'http': 'http://{}:{}'.format(L[0], L[1]),
                'https': 'https://{}:{}'.format(L[0], L[1])
            }
            return proxy_ip
    
        def get_html(self):
            proxies = self.get_proxies()
            if self.flag <= 3:
                try:
                    html = requests.get(url=self.url, proxies=proxies, headers=self.headers, timeout=5).text
                    print(html)
                except Exception as e:
                    print('Retry')
                    self.flag += 1
                    self.get_html()
    
    
    if __name__ == '__main__':
        spider = BaiduSpider()
        spider.get_html()

    2.收费代理API

     写一个获取收费开放API代理的接口

    import requests
    from fake_useragent import UserAgent
    
    ua = UserAgent()                        # 创建User-Agent对象
    useragent = ua.random
    headers = {'User-Agent': useragent}
    
    
    def ip_test(ip):
        url = 'http://www.baidu.com/'
        ip_port = ip.split(':')
        proxies = {
            'http': 'http://{}:{}'.format(ip_port[0], ip_port[1]),
            'https': 'https://{}:{}'.format(ip_port[0], ip_port[1]),
        }
        res = requests.get(url=url, headers=headers, proxies=proxies, timeout=5)
        if res.status_code == 200:
            return True
        else:
            return False
    
    
    # 提取代理IP
    def get_ip_list():
        # 快代理:https://www.kuaidaili.com/doc/product/dps/
        api_url = 'http://dev.kdlapi.com/api/getproxy/?orderid=946562662041898&num=100&protocol=1&method=2&an_an=1&an_ha=1&sep=2'
        html = requests.get(api_url).content.decode('utf-8', 'ignore')
        ip_port_list = html.split('
    ')
    
        for ip in ip_port_list:
            with open('proxy_ip.txt', 'a') as f:
                if ip_test(ip):
                    f.write(ip + '
    ')
    
    
    if __name__ == '__main__':
        get_ip_list()

    3.私密代理

    1、语法结构

      用户名和密码会在给API_URL的时候给。不是自己的账号和账号密码。

    proxies = {
    '协议':'协议://用户名:密码@IP:端口号'
    }
    proxies = {
        'http':'http://用户名:密码@IP:端口号',
        'https':'https://用户名:密码@IP:端口号'
    }
    proxies = {
        'http': 'http://309435365:szayclhp@106.75.71.140:16816',
        'https':'https://309435365:szayclhp@106.75.71.140:16816',
    } 
    # 获取开放代理的接口
    import requests
    from fake_useragent import UserAgent
    
    ua = UserAgent()  # 创建User-Agent对象
    useragent = ua.random
    headers = {'User-Agent': useragent}
    
    
    def ip_test(ip):
        url = 'https://blog.csdn.net/qq_34218078/article/details/90901602/'
        ip_port = ip.split(':')
        proxies = {
            'http': 'http://1786088386:b95djiha@{}:{}'.format(ip_port[0], ip_port[1]),
            'https': 'http://1786088386:b95djiha@{}:{}'.format(ip_port[0], ip_port[1]),
        }
    
        res = requests.get(url=url, headers=headers, proxies=proxies, timeout=5)
        if res.status_code == 200:
            print("OK")
            return True
        else:
            print(res.status_code)
            print("错误")
            return False
    
    
    # 提取代理IP
    def get_ip_list():
        # 快代理:https://www.kuaidaili.com/doc/product/dps/
        api_url = 'http://dps.kdlapi.com/api/getdps/?orderid=986603271748760&num=1000&signature=z4a5b2rpt062iejd6h7wvox16si0f7ct&pt=1&sep=2'
        html = requests.get(api_url).content.decode('utf-8', 'ignore')
        ip_port_list = html.split('
    ')
    
        for ip in ip_port_list:
            with open('proxy_ip.txt', 'a') as f:
                if ip_test(ip):
                    f.write(ip + '
    ')
    
    
    if __name__ == '__main__':
        get_ip_list()

    思路:

    • 写一个类;
    • get_ip() requests请求接口,得到ip和port;
    • test_ip() 请求某一网站,根据状态码或in判断是否有某一内容来判断此ip是否可用,返回Ture和False即可;
    • save_ip()测试成功后保存;
  • 相关阅读:
    从简单需求到OLAP的RANK系列函数
    数据库的Index Scan V.S. Rscan
    z/OS上Dataset 的移动
    如何保存CONSOLE LOG
    c#对文件进行MD5加密校验
    基于webpivottable做的透视表
    通过asp.net程序来控制自己开发的windows服务
    AES加密和解密
    C#添加日志
    cmd执行mssql脚本或者执行mysql脚本
  • 原文地址:https://www.cnblogs.com/Summer-skr--blog/p/11474095.html
Copyright © 2020-2023  润新知