Socket 的个人故事。希望通过这篇文章让你弄懂什么是 Socket,明白 TCP 和 UDP 协议的通讯,明白长连接和短连接的优缺点,明白 BIO、NIO、AIO的区别。
Socket
大家好,我是 Socket。很多人都知道我,但是都不清楚我。给你看一下我和大佬的合影。
我很荣幸能与 TCP/IP 五层模型中的各位大佬站在一起,但我并不属于他们中的任何一层。我的存在只是为了让应用层的使用者能更简单地将数据丢给传输层。他们不需要关系 TCP/IP 协议族的复杂内容。有什么问题直接找我,我来帮你搞定。简单来说,你们可以把我理解成是应用层与TCP/IP协议族通信的抽象层、函数库。
物理层:规范传输介质的规格特性(接口大小、形状、引线数量、电压范围等),让比特流能在各种传输媒体之间传输。
链路层:提供介质访问和链路管理,主要将源计算机网络层来的数据可靠的传输到相邻节点的目标计算机的网络层。
网络层:提供了主机到主机的通信服务和各种形式的进程到进程的通信。实现两个端系统之间的数据透明传送,使传输层不需要了解网络中的数据传输和交换技术。
传输层:主要负责向两个主机中进程之间的通信提供服务。
应用层:为应用程序提供服务。
TCP 和 UDP
前面介绍过,我是应用层和传输层之间的抽象层。他们之间的通讯都是通过我来完成,可以把我理解成网络通信的基本操作单元。有时候通讯多了,可真把我给类坏了。比如很多时候应用层会有多个程序往传输层进行通信。这时候会有多个 TCP (UDP)连接,或者多个应用进程用同一个 TCP (UDP)连接。为了避免各个连接通讯混乱的问题,我可费了不少心思。
我有三宝:协议、IP地址、端口。每个 Socket 都会带上这三宝,已确保自己能到达正确的目标主机上。
协议:一种约定和规范。只有通讯双方使用同一种协议才能互相通讯。
地址:目标主机的地址。不管是客户端还是服务端,都需要一个IP地址。
端口:用于区分网络程序的唯一标识。目标主机上会有很多的网络应用,他们各占一个端口,互不冲突。
TCP
TCP 传输控制协议(Transmission Control Protocol)是一种面向连接、可靠、基于字节流的传输层通信协议。在建立连接时需要进行三次握手,已确保在不稳定的网络环境下能进行可靠的传输。在断开连接时需要进行四次挥手,已确保双方通讯的数据完整。
三次握手
第一次握手:从客服端发往服务端,发 syn 包,看能否连上服务器。需要等待服务器确认。
第二次握手:从服务端发往客户端,发 ack 包,通知客户端你能连上我。同时发送 syn 包,看能否连上客户端。需要等待客户端确认。
第三次握手:从客服端发往服务端,发 ack 包,通知服务端你能连上我。
四次挥手
第一次挥手:从客户端发往服务端,发 fin 包,告知服务端要断开连接。
第二次挥手:从服务端发往客户端,发 ack 包,通知客户端你的请求我收到了,但是我还没有准备好,等通知。
第三次挥手:从服务端发往客户端,发 fin 包,告知客户端我已经要断开连接了。
第四次握手:从客户端发往服务端,发 ack 包,通知服务端你的请求我收到了,如果你不回我消息,我也断开连接了。
TCP Socket 通讯流程图如下。
首先,服务端和客户端都需要调用 socket 函数。用来生成一个用于通信的套接字文件描述符 sockfd。
随后,服务端需要调用 bind 函数。开始将服务器 IP 和 PORT 绑定到第一步创建的 sockfd 上。
然后,服务器便可以调用 listen 函数。此时的套接字状态从 CLOSE 转变为 LISTEN,成为一个对外提供 TCP 连接的窗口。监听着客户端的连接请求。
一旦,服务端监听到客户端的连接请求后,服务端便开始调用 accept 函数。接收请求了一些包括客户端传来的 IP 和 PORT。若接收成功,还会再创建一个新的 sockfd 与客户端进行 IO 操作。
最后,在通讯结束后调用 close 函数。与客户端进行四次挥手后关闭,释放资源。
连接,客户端发起连接时需要调用 connect 函数。将带上自身的 IP、随机的 PORT 和 sockfd 向目标服务器开始三次握手建立连接。
UDP
UDP 用户数据报协议(User Datagram Protocol)是无连接的,面向消息的,提供高效率服务。UDP 不需要连接,少了三次握手和四次挥手的操作,从而对资源的占用率更少、处理的网络请求和响应效率更快。但他不能保障在极端的情况下载通讯不会丢失。
UDP 在绑定目标主机地址后,便可以通过 Sendto 和 Recvfrom 发送和接受数据。
长连接和短连接
长连接:通讯双方在有数据交互时建立一个 TCP 连接,并一直保持连接状态。
短连接:通讯双方在有数据交互时就建立一个 TCP 连接,数据交互完成后断开连接。
长连接不需要频发建立连接,适用于频繁请求的客户。减少了短连接频繁创建连接带来的资源开销。但是长连接如果过多也会多服务器带来很大的压力。长连接的应用场景相比短连接要少点。使用建议定时发送心跳包,以维持连接的状态。且长连接的数量不宜过多。
短连接对于服务器而言比较简单,每个连接都是有用的,不需要像长连接一样需要额外维护。
BIO NIO AIO
BIO 全称Block-IO 是一种阻塞同步的通信模式。我们常说的Stock IO 一般指的是BIO。是一个比较传统的通信方式,模式简单,使用方便。但并发处理能力低,通信耗时,依赖网速。
NIO 全称New IO,也叫Non-Block IO 是一种非阻塞同步的通信模式。
AIO 也叫NIO2.0 是一种非阻塞异步的通信模式。在NIO的基础上引入了新的异步通道的概念,并提供了异步文件通道和异步套接字通道的实现。
BIO 设计原理:
服务器通过一个Acceptor线程负责监听客户端请求和为每个客户端创建一个新的线程进行链路处理。典型的一请求一应答模式。若客户端数量增多,频繁地创建和销毁线程会给服务器打开很大的压力。后改良为用线程池的方式代替新增线程,被称为伪异步IO。
服务器提供IP地址和监听的端口,客户端通过TCP的三次握手与服务器连接,连接成功后,双放才能通过套接字(Stock)通信。
NIO 设计原理:
NIO 相对于BIO来说一大进步。客户端和服务器之间通过Channel通信。NIO可以在Channel进行读写操作。这些Channel都会被注册在Selector多路复用器上。Selector通过一个线程不停的轮询这些Channel。找出已经准备就绪的Channel执行IO操作。
NIO 通过一个线程轮询,实现千万个客户端的请求,这就是非阻塞NIO的特点。
AIO 设计原理:
AIO 并没有采用NIO的多路复用器,而是使用异步通道的概念。其read,write方法的返回类型都是Future对象。而Future模型是异步的,其核心思想是:去主函数等待时间。
BIO NIO AIO 的详细知识可以参考我的另外一篇文章 :Netty序章之BIO NIO AIO演变