Socket 基础/进阶-2

what is 粘包?

　　!!! : 只有TCP有粘包现象，UDP永远不会粘包

　　socket收发消息的原理:

　　应用程序所看到的数据是一个整体，或说是一个流（stream），一条消息有多少字节对应用程序是不可见的，因此TCP协议是面向流的协议，这也是容易出现粘包问题的原因。而UDP是面向消息的协议，每个UDP段都是一条消息，应用程序必须以消息为单位提取数据，不能一次提取任意字节的数据，这一点和TCP是很不同的。怎样定义消息呢？可以认为对方一次性write/send的数据为一个消息，需要明白的是当对方send一条信息的时候，无论底层怎样分段分片，TCP协议层会把构成整条消息的数据段排序完成后才呈现在内核缓冲区。

　　例如基于tcp的套接字客户端往服务端上传文件，发送时文件内容是按照一段一段的字节流发送的，在接收方看了，根本不知道该文件的字节流从何处开始，在何处结束.

　　SO 所谓粘包问题主要还是因为接收方不知道消息之间的界限，不知道一次性提取多少字节的数据所造成的。

　　此外，发送方引起的粘包是由TCP协议本身造成的，TCP为提高传输效率，发送方往往要收集到足够多的数据后才发送一个TCP段。若连续几次需要send的数据都很少，通常TCP会根据优化算法把这些数据合成一个TCP段后一次发送出去，这样接收方就收到了粘包数据。

　　TCP（transport control protocol，传输控制协议）是面向连接的，面向流的，提供高可靠性服务。收发两端（客户端和服务器端）都要有一一成对的socket，
因此，发送端为了将多个发往接收端的包，更有效的发到对方，使用了优化方法（Nagle算法），将多次间隔较小且数据量小的数据，合并成一个大的数据块，然后进行封包。
这样，接收端，就难于分辨出来了，必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。
UDP（user datagram protocol，用户数据报协议）是无连接的，面向消息的，提供高效率服务。
不会使用块的合并优化算法，, 由于UDP支持的是一对多的模式，所以接收端的skbuff(套接字缓冲区）采用了链式结构来记录每一个到达的UDP包，在每个UDP包中就有了消息头（消息来源地址，端口等信息），
这样，对于接收端来说，就容易进行区分处理了。 即面向消息的通信是有消息保护边界的。
tcp是基于数据流的，于是收发的消息不能为空，这就需要在客户端和服务端都添加空消息的处理机制，防止程序卡住，而udp是基于数据报的，即便是你输入的是空内容（直接回车），
那也不是空消息，udp协议会帮你封装上消息头，实验略

　　udp的recvfrom是阻塞的，一个recvfrom(x)必须对唯一一个sendinto(y),收完了x个字节的数据就算完成,若是y>x数据就丢失，这意味着udp根本不会粘包，但是会丢数据，不可靠.

tcp的协议数据不会丢，没有收完包，下次接收，会继续上次继续接收，己端总是在收到ack时才会清除缓冲区内容。数据是可靠的，但是会粘包。

发生粘包情况：

　　发送端需要等缓冲区满才发送出去，造成粘包（发送数据时间间隔很短，数据了很小，会合到一起，产生粘包）

 1 服务端：
 2 
 3 #_*_coding:utf-8_*_
 4 __author__ = 'Linhaifeng'
 5 from socket import *
 6 ip_port=('127.0.0.1',8080)
 7 
 8 tcp_socket_server=socket(AF_INET,SOCK_STREAM)
 9 tcp_socket_server.bind(ip_port)
10 tcp_socket_server.listen(5)
11 
12 
13 conn,addr=tcp_socket_server.accept()
14 
15 
16 data1=conn.recv(10)
17 data2=conn.recv(10)
18 
19 print('----->',data1.decode('utf-8'))
20 print('----->',data2.decode('utf-8'))
21 
22 conn.close()
23 
24 
25 
26 客户端
27 
28 #_*_coding:utf-8_*_
29 __author__ = 'Linhaifeng'
30 import socket
31 BUFSIZE=1024
32 ip_port=('127.0.0.1',8080)
33 
34 s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
35 res=s.connect_ex(ip_port)
36 
37 
38 s.send('hello'.encode('utf-8'))
39 s.send('feng'.encode('utf-8'))

View Code

　　接收方不及时接收缓冲区的包，造成多个包接收（客户端发送了一段数据，服务端只收了一小部分，服务端下次再收的时候还是从缓冲区拿上次遗留的数据，产生粘包）

 1 服务端
 2 
 3 #_*_coding:utf-8_*_
 4 __author__ = 'Linhaifeng'
 5 from socket import *
 6 ip_port=('127.0.0.1',8080)
 7 
 8 tcp_socket_server=socket(AF_INET,SOCK_STREAM)
 9 tcp_socket_server.bind(ip_port)
10 tcp_socket_server.listen(5)
11 
12 
13 conn,addr=tcp_socket_server.accept()
14 
15 
16 data1=conn.recv(2) #一次没有收完整
17 data2=conn.recv(10)#下次收的时候,会先取旧的数据,然后取新的
18 
19 print('----->',data1.decode('utf-8'))
20 print('----->',data2.decode('utf-8'))
21 
22 conn.close()
23 
24 
25 
26 客户端
27 
28 #_*_coding:utf-8_*_
29 __author__ = 'Linhaifeng'
30 import socket
31 BUFSIZE=1024
32 ip_port=('127.0.0.1',8080)
33 
34 s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
35 res=s.connect_ex(ip_port)
36 
37 
38 s.send('hello feng'.encode('utf-8'))

View Code

注意几点：

1.   tcp是可靠传输，udp是不可靠传输

2.   send(字节流)和recv(1024)及sendall

    recv里指定的1024意思是从缓存里一次拿出1024个字节的数据
send的字节流是先放入己端缓存，然后由协议控制将缓存内容发往对端，如果待发送的字节流大小大于缓存剩余空间，那么数据丢失，用sendall就会循环调用send，数据不会丢失

参考： http://www.cnblogs.com/linhaifeng/articles/6129246.html#_label8

相关阅读:
浦东新区2019年下半年部分街镇社区工作者和部分单位编外人员公开招聘考试大纲
 苏州山西
 第几行记录
 命令检查Linux服务器性能
 SQLRecoverableException: I/O Exception: Connection reset
Oracle单表备份三种方案
 vim 清空
 常看 Shell: 文本文件操作
 bash date format
Linux Shell 截取字符串
原文地址：https://www.cnblogs.com/MR-allen/p/10472817.html