• Java IO 学习(一)同步/异步/阻塞/非阻塞


     关于IO,同步/异步/阻塞/非阻塞,这几个关键词是经常听到的,譬如:

    “Java oio是阻塞的,nio是非阻塞的”

    “NodeJS的IO是异步的”

    但是这些东西听多了就容易迷糊,比方说同步是否就是阻塞,异步是否就是非阻塞呢?

    先给出结论:

    1. 异步/同步与阻塞/非阻塞之间没有必然的联系

    2. 同步IO可以是阻塞,也可以是非阻塞的

    3. 异步IO就是异步IO,它一定是非阻塞的,不存在异步阻塞IO这个说法

    POSIX对同步/异步的定义如下,这两句话非常关键

    - A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
    - An asynchronous I/O operation does not cause the requesting process to be blocked;

    再给出权威文档:《UNIX网络编程:卷一》的第六章

    书中列出了如下五种IO模型:

    • 阻塞式I/O;

    • 非阻塞式I/O;

    • I/O复用(select,poll,epoll...);

    • 信号驱动式I/O(SIGIO);

    • 异步I/O(POSIX的aio_系列函数);

    1. 阻塞式IO

    我们手上有一个socket,现在希望能从这个socket里读点数据出来,我们会对这个socket调用recvfrom方法

    ssize_t recvfrom(int sockfd, void *buf, size_t len, int flags,
      struct sockaddr *src_addr, socklen_t *addrlen);

    在默认情况下,recvfrom方法会被阻塞,直到从指定的socket上收到数据才会返回,返回时,buf中已经填充好了数据

    阻塞的过程实际上可以分割成两段:等待kernel准备好从网络上接收到的数据报 + 等待收到的报文被从kernel复制到buf中

    只有在这两个过程全部完成后,recvfrom方法才会返回。

    这就是阻塞式IO模型

    2. 非阻塞式IO

    还是上面的recvfrom方法,如果将其设置为非阻塞模式(flag与MSG_DONTWAIT异或),情况就会有所不同了:

    在内核没有准备好数据报时,调用recvfrom方法会立即返回异常码(EWOULDBLOCK或者EAGAIN)(这一段是非阻塞的!)

    如果内核已经准备好数据,调用recvfrom方法则会在数据报被从kernel拷贝到buf中后返回(这一段是同步的!)

    也就是说,阻塞与非阻塞式IO的主要区别在于等待数据报准备好的第一阶段,至于将数据从kernel拷贝到buf中的过程,两者都是同步的。

     

    但是个人觉得非阻塞式IO可能并不好用,因为在轮询一个socket是否可读的过程会直接占满一个core

    如果想要减少cpu资源占用的话,又会增加编程的复杂度。

    3. I/O多路复用

    IO多路复用有select/poll/epoll这样的几种方式

    先介绍一下最有代表性的select方法

    int select(int nfds, fd_set *restrict readfds,
      fd_set *restrict writefds, fd_set *restrict errorfds,
      struct timeval *restrict timeout);

    select方法的返回值代表当前可以操作的fd数量,如果返回值大于0,说明已经有fd准备就绪,下一步我们就可以调用recvfrom方法从就绪的fd中读取数据了(先只考虑可读的情况)

    select方法是否阻塞,与timeout参数有关

    如果timeout被设置为0,那么select是非阻塞的,对select方法的调用会立即返回。

    如果timeout被设置为非0,则select会阻塞,直到有fd可读,或者timeout到期为止。

    总的来说,I/O多路复用是同步阻塞的,但主要是阻塞在对select/poll/epoll方法的调用上,后续的recvfrom则是同步的。

    多说一句,I/O多路复用,实际上跟第一条介绍的阻塞IO差不多
    只是I/O多路复用可以同时监听多个fd罢了

    这样就减少了为每个需要监听的fd开启一个线程的开销。

    4. 信号驱动式I/O

    没用过也没见过,直接上截图:

    5. 异步I/O

    同步IO中,在调用recvfrom方法时,即使kernel已经将数据准备好,recvfrom方法也不会立即返回

    必须要在耗费一定的时间,将数据从kernel完全拷贝到用户buf中后,recvfrom方法才会返回

    也就是说,在recvfrom方法无异常返回的时候,数据已经在buf中准备好了

    异步IO则有相当大的不同:

    1. 用户调用一次请求数据的方法,该方法会无阻塞的立即返回。

    2. OS接到这个请求后,会将用户所请求的数据从kernel拷贝到指定的位置。

    3. 数据拷贝完成后,第一步中注册的回调方法会被调用(或者触发一个信号,总之就是要让用户感知到数据已经拷贝完成)

    4. 用户感知到这一事件,此时数据已经准备好,可以直接处理数据了

    如下图所示

    但是目前Linux的aio还不成熟,而且epoll提供的IO多路复用模型在性能上已经够用了,所以在此就不举例了

    ps. NodeJS在Linux上的异步实现是基于libeio,这是用阻塞IO和线程池模拟出来的异步IO

    最后上一张图作为总结

     最后再把文章开头的两句话再重复一遍,理解想必会更加深刻

    - A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
    - An asynchronous I/O operation does not cause the requesting process to be blocked;

    参考文献

    网络编程释疑之:同步,异步,阻塞,非阻塞

  • 相关阅读:
    PAT甲级——A1133 Splitting A Linked List【25】
    PAT甲级——A1132 Cut Integer
    PAT甲级——A1131 Subway Map【30】
    PAT甲级——A1130 Infix Expression【25】
    PAT甲级——A1129 Recommendation System【25】
    PAT甲级——A1128 N Queens Puzzle【20】
    PAT甲级——A1127 ZigZagging on a Tree【30】
    PAT甲级——A1126 Eulerian Path【30】
    PAT甲级——A1125 Chain the Ropes【25】
    集合的一个小发现
  • 原文地址:https://www.cnblogs.com/stevenczp/p/7479001.html
Copyright © 2020-2023  润新知