做采集系统有两年了,第一年主要的设计和代码逻辑是别人写的。但是问题很多。
第二年真正由我接手后,修复了大量的业务逻辑。
遇到的一个核心问题就是数据丢失。最近客户也在问我采集上报的机制,是否使用长连接?我自己联想到套接字的reuse问题。
由于所作的这个项目有两千万的用户量,高峰期tcp连接达到15000到30000并发是每天都会发生的事情。
开始怀疑是这个机制设计得有问题。
再仔细回忆之前学C套接字时的资料,reuse机制是服务端的监听端口时用到的参数,并不会影响客户端SDK的断开重连,实际修改thrift源码测试发现也是如此。结论是reuse只影响服务端,不影响客户端的tcp连接。
而keep alive是http1.1的机制,它是一个http数据包的报头。带有这个报头的http通信就会维持长连接,数据没有数据通信,也会发送带有keepalive报头用来保活的空连接数据包。而我所用的采集系统使用TCP连接。
所以数据丢失跟这两个细节无关。