• 数据挖掘_利用协程抓取


    协程,又称微线程,纤程。英文名Coroutine。

    协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。

    子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。

    所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。

    子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不同。

    协程看上去也是子程序,但执行过程中,在子程序内部可中断,然后转而执行别的子程序,在适当的时候再返回来接着执行。

    注意,在一个子程序中中断,去执行其他子程序,不是函数调用,有点类似CPU的中断。

      摘自网上

    协程与多线程的比较,可以参考下图

    一般在Python讨论协程时,都会与生成器联系在一起

    生成器是一个函数,主要特点是生成器在返回值是,不是使用return,而是使用yield关键字,在定义函数时,如果函数体中包含yield关键字,则该函数就被认为是一个生成器,对于这些基本概念,我们不做过多讨论

    接下来我们首先要引入一个模块gevent,使用gevent异步库可以更加方便地实现基于协程的并发设计,在gevent中使用greenlet对象实现并发,greenlet就是协程,可以将其认为是一种轻量线程

    首先安装这个模块,非常简单

    pip3 install gevent

    接下来,我们还是以之前当当图书的那个例子,进行测试

    我们在这定义协程的主要函数

    # -*- coding: utf-8 -*-
    """
    Created on 2018/5/5 
    
    @author: susmote
    """
    
    import gevent
    from gevent import monkey
    monkey.patch_all()
    import time
    import mining_func
    
    
    def gevent_test():
        start_time = time.time()
        page_range_list = [
            (1, 10),
            (11, 20),
            (21, 32),
        ]
        jobs = []
        for page_range in page_range_list:
            jobs.append(gevent.spawn(mining_func.get_urls_in_pages, page_range[0], page_range[1]))
    
        gevent.joinall(jobs)
        
        end_time = time.time()
        print("抓取时间:", end_time - start_time)
        return end_time - start_time
    

      关于这段代码,基本和之前定义多线程,多进程的过程相似,我不做过多无用的解释,只是提示一下,monkey.patch_all()这个是必须不能忘记加,如果没有这一句,程序将会变为依次顺序抓取,这样就会失去并发的能力

      gevent.spawn这段语句可以生成greenlet,gevent.joinall(jobs),也就是说他会阻塞程序的执行,直至所有的协程执行完毕

    运行主函数如下

    # -*- coding: utf-8 -*-
    """
    Created on 2018/5/5 
    
    @author: susmote
    """
    
    from main_func import gevent_test
    
    if __name__ == "__main__":
        gevent_test()

     

    下面运行这段代码

    最后运行时间

    3.439 秒 

    关于协程我讲的就是这些

  • 相关阅读:
    利用Node.js的Net模块实现一个命令行多人聊天室
    JS判断鼠标进入容器方向的方法和分析window.open新窗口被拦截的问题
    Node.js:进程、子进程与cluster多核处理模块
    Node.js:理解stream
    Node.js:Buffer浅谈
    Node.js:OS模块
    一个unsigned int 数的二进制表示中有多少个1
    一个栈的入栈序列为ABCDEF,则不可能的出栈序列是
    文件操作:获取一个文件行数的方法
    利用sourceinsight宏(Quicker.em)提高编码效率和质量
  • 原文地址:https://www.cnblogs.com/susmote/p/8994129.html
Copyright © 2020-2023  润新知