• TCP的发送系列 — 发送缓存的管理(二)


    主要内容:从TCP层面判断发送缓存的申请是否合法,进程因缺少发送缓存而进行睡眠等待、

                        因为有发送缓存可写事件而被唤醒。

    内核版本:3.15.2

    我的博客:http://blog.csdn.net/zhangskd

    TCP的发送缓存管理发生在两个层面上:单个Socket和整个TCP层。

    上一篇blog讲述了单个Socket层面上的发送缓存管理,现在来看下整个TCP层面上的发送缓存管理。

    从TCP层面判断发送缓存的申请是否合法

    在申请发送缓存时,会调用sk_stream_memory_free()来判断sock发送队列的大小是否超过

    了sock发送缓存的上限,如果超过了,就要进入睡眠来等待sock的发送缓存可写事件。

    这是从单个socket层面来判断是否允许分配发送缓存。

    在调用sk_stream_alloc_skb()申请完发送缓存后,还要从TCP层面来判断此次的申请是否合法。

    如果不合法,就使用__kfree_skb()来释放申请好的skb。可见发送缓存的申请,需要经过两重关卡。

    从TCP层面来判断发送缓存的申请是否合法,需要考虑整个TCP层面的内存使用量,以及此socket

    的发送缓存使用量。sk->sk_forward_alloc为sock预分配缓存的大小,是sock事先分配好还未使用的内存。

    当申请新的发送缓存后,如果发现sk->sk_forward_alloc < skb->truesize,即预分配缓存用光了,

    才需要调用sk_wme_schedule()来从TCP层面判断合法性,否则不用再做检查。

    static inline bool sk_wmem_schedule(struct sock *sk, int size)
    {
        /* TCP层是有统计内存使用的,所以条件为假 */
        if (! sk_has_account(sk))
            return true;
    
        /* 如果本次使用的内存skb->truesize,少于sk预分配且未使用的缓存的大小,那么不用进行
         * 进一步检查。否则需要从TCP层面判断此次发送缓存的申请是否合法。
         */
        return size <= sk->sk_forward_alloc || __sk_mem_schedule(sk, size, SK_MEM_SEND);
    }
    
    static inline bool sk_has_account(struct sock *sk)
    {
        /* return ture if protocol supports memory accounting */
        return !! sk->sk_prot->memory_allocated;
    }
     
    
    /* return minimum truesize of one skb containing X bytes of data */
    #define SKB_TRUESIZE(X) ((X) + 
        SKB_DATA_ALIGN(sizeof(struct sk_buff)) + 
        SKB_DATA_ALIGN(sizeof(struct skb_shared_info)))
    

    __sk_mem_schedule()用来从TCP层面判断此次发送缓存的申请是否合法,如果是合法的,

    会更新预分配缓存sk->sk_forward_alloc和TCP层总的内存使用量tcp_memory_allocated,

    后者的单位为页。

    Q:哪些情况下此次发送缓存的申请是合法的呢?

    1. TCP层的内存使用量低于最小值sysctl_tcp_mem[0]。

    2. sock的发送缓存使用量低于最小值sysctl_tcp_wmem[0]。

    3. TCP层不处于内存压力状态,即TCP层的内存使用量低于sysctl_tcp_wmem[1]。

    4. TCP层处于内存压力状态,但当前socket使用的内存还不是太高。

    5. TCP层的内存使用量超过最大值sysctl_tcp_wmem[2],降低发送缓存的上限后,发送队列的总大小超过

        了发送缓存的上限了。因此之后会进入睡眠等待,所以也判为合法的。

    可以看到,在绝大多数情况下发送缓存的申请都是合法的,除非TCP的内存使用量已经到极限了。

    除了判断此次发送缓存申请的合法性,__sk_mem_schedule()还做了如下事情:

    1. 如果TCP的内存使用量低于最小值sysctl_tcp_mem[0],就清零TCP的内存压力标志tcp_memory_pressure。

    2. 如果TCP的内存使用量高于压力值sysclt_tcp_mem[1],把TCP的内存压力标志tcp_memory_pressure置为1。

    3. 如果TCP的内存使用量高于最大值sysctl_tcp_mem[2],就减小sock发送缓存的上限sk->sk_sndbuf。

    返回值为1时,表示发送缓存的申请是合法的;返回值为0时,表示不合法。

    /* increase sk_forward_alloc and memory_allocated
     * @sk: socket
     * @size: memory size to allocate
     * @kind: allocation type
     * If kind is SK_MEM_SEND, it means wmem allocation.
     * Otherwise it means rmem allocation. This function assumes that 
     * protocols which have memory pressure use sk_wmem_queued as
     * write buffer accounting.
     */
    
    int __sk_mem_schedule(struct sock *sk, int size, int kind)
    {
        struct proto *prot = sk->sk_prot; /* 实例为tcp_prot */
        int amt = sk_mem_pages(size); /* 把size转换为页数,向上取整 */
        long allocated;
        int parent_status = UNDER_LIMIT;
    
        sk->sk_forward_alloc += amt * SK_MEM_QUANTUM; /* 更新预分配缓存的大小 */
    
        /* 更新后的TCP内存使用量tcp_memory_allocated,单位为页 */
        allocated = sk_memory_allocated_add(sk, amt, &parent_status);
    
        /* Under limit. 如果TCP的内存使用量低于最小值sysctl_tcp_mem[0] */
        if (parent_status == UNDER_LIMIT && allocated <= sk_prot_mem_limits(sk, 0)) {
            sk_leave_memory_pressure(sk); /* 清零TCP层的内存压力标志tcp_memory_pressure */
            return 1;
        }
    
        /* Under pressure. (we or our parents).
         * 如果TCP的内存使用量高于压力值sysclt_tcp_mem[1],把TCP层的内存压力标志
         * tcp_memory_pressure置为1。
         */
        if ((parent_status > SOFT_LIMIT) || allocated > sk_prot_mem_limits(sk, 1))
            sk_enter_memory_pressure(sk);
    
        /* Over hard limit (we or our parents).
         * 如果TCP层的内存使用量高于最大值sysctl_tcp_mem[2],就减小sock发送缓存的上限
         * sk->sk_sndbuf。
         */
        if ((parent_status == OVER_LIMIT || (allocated > sk_prot_mem_limits(sk, 2)))
            goto suppress_allocation;
    
        /* guarantee minimum buffer size under pressure */
        /* 不管是在发送还是接收时,都要保证sock至少有sysctl_tcp_{r,w}mem[0]的内存可用 */
        if (kind == SK_MEM_RECV) {
            if (atomic_read(&sk->sk_rmem_alloc) < prot->sysctl_rmem[0])
                return 1;
    
        } else { /* SK_MEM_SEND */
            if (sk->sk_type == SOCK_STREAM) {
                if (sk->sk_wmem_queued < prot->sysctl_wmem[0])
                    return 1;
            } else if (atomic_read(&sk->sk_wmem_alloc) < prot->sysctl_wmem[0])
                return 1;
        }
    
       if (sk_has_memory_pressure(sk)) {
            int alloc;
    
            /* 如果TCP不处于内存压力状态,直接返回 */
            if (! sk_under_memory_pressure(sk))
                return 1;
    
            alloc = sk_sockets_allocated_read_positive(sk); /* 当前使用TCP的socket个数 */
    
            /* 如果当前socket使用的内存还不是太高时,返回真 */
            if (sk_prot_mem_limits(sk, 2) > alloc * sk_mem_pages(sk->sk_wmem_queued +
                 atomic_read(&sk->sk_rmem_alloc) + sk->sk_forward_alloc))
                return 1;
        }
    
    suppress_allocation:
        if (kind == SK_MEM_SEND && sk->sk_type == SOCK_STREAM) {
    
            /* 减小sock发送缓冲区的上限,使得sndbuf不超过发送队列总大小的一半,
             * 不低于两个数据包的MIN_TRUESIZE。
             */
            sk_stream_moderate_sndbuf(sk); 
    
            /* Fail only if socket is under its sndbuf.
             * In this case we cannot block, so that we have to fail.
             */
            if (sk->sk_wmem_queued + size >= sk->sk_sndbuf)
                return 1;
        } 
        trace_sock_exceed_buf_limit(sk, prot, allocated);
     
        /* 走到这里,判定此次发送缓存的申请为不合法的,撤销之前的内存计数更新 */
        /* Alas. Undo changes. */
        sk->sk_forward_alloc -= amt * SK_MEM_QUANTUM;
        sk_memory_allocated_sub(sk, amt);
        return 0;
    }
    
    /* 把字节数amt转换为页数,向上取整 */
    static inline int sk_mem_pages(int amt)
    {
        return (amt + SK_MEM_QUANTUM - 1) >> SK_MEM_QUANTUM_SHIFT;
    }
    #define SK_MEM_QUANTUM ((int) PAGE_SIZE)
    
    /* 返回更新后的TCP内使用量tcp_memory_allocated,单位为页 */
    static inline long sk_memory_allocated_add(struct sock *sk, int amt, int *parent_status)
    {
        struct proto *prot = sk->sk_prot;
    
        /* Cgroup相关,此处略过 */
        if (mem_cgroup_sockets_enabled && sk->sk_cgrp) {
            ...
        }
    
        return atomic_long_add_return(amt, prot->memory_allocated);
    }
    

    sysctl_tcp_mem[0]:最小值

    sysctl_tcp_mem[1]:压力值

    sysctl_tcp_mem[2]:最大值

    static inline long sk_prot_mem_limits(const struct sock *sk, int index)
    {
        long *prot = sk->sk_prot->sysctl_mem;
    
        /* Cgroup相关 */
        if (mem_cgroup_sockets_enabled && sk->sk_cgrp)
            prot = sk->sk_cgrp->sysctl_mem;
    
        return prot[index];
    }
    

    因缺少发送缓存而睡眠等待

    在tcp_sendmsg()中,如果发送队列的总大小sk_wmem_queued大于等于发送缓存的上限sk_sndbuf,

    或者发送缓存中尚未发送的数据量超过了用户的设置值,就进入睡眠等待。

    如果申请发送缓存失败了,也会进行睡眠等待。

    (1) 判断条件

    sk_stream_memory_free()用来判断sock是否有剩余的发送缓存。

    static inline bool sk_stream_memory_free(const struct sock *sk)
    {
        if (sk->sk_wmem_queued >= sk->sk_sndbuf)
            return false;
    
        return sk->sk_prot->stream_memory_free ? sk->sk_prot->stream_memory_free(sk) : true;
    }
    
    static inline bool tcp_stream_memory_free(const struct sock *sk)
    {
        const struct tcp_sock *tp = tcp_sk(sk);
        u32 notsent_bytes = tp->write_seq - tp->snd_nxt; /* 尚未发送的数据大小 */
    
        /* 当尚未发送的数据,少于配置的值时,才返回真。
         * 这是为了避免发送缓存占用过多的内存。
         */
        return notsent_bytes < tcp_notsent_lowat(tp);
    }

    如果有使用TCP_NOTSENT_LOWAT选项,则使用用户设置的值。

    否则使用sysctl_tcp_notsent_lowat,默认为无穷大。

    static inline u32 tcp_notsent_lowat(const struct tcp_sock *tp)
    {
        return tp->notsent_lowat ?: sysctl_tcp_notsent_lowat;
    }

    (2) 睡眠等待

    如果发送队列的总大小sk_wmem_queued大于等于发送缓存的上限sk_sndbuf,

    或者发送缓存中尚未发送的数据量超过了用户的设置,就进入等待。

    如果因为TCP层的内存不足,导致申请发送缓存失败了,也会进行睡眠等待。

    Q:需要睡眠等待多长的时间呢?

    需要分两种情况:

    1. 等待的原因是TCP层的内存不足。

        刚进入函数时,会判断sock的发送缓存是否达到了上限。

        如果此时sock尚有发送缓存额度,说明是TCP层内存不足导致发送缓存申请失败的,

        设置等待时间为一个2~202ms的伪随机数,超时后就结束等待。

    2. 等待的原因是sock的发送缓存不足。

        在睡眠的过程中,当有可用的发送缓存时,进程会被唤醒,从而结束等待。

        否则达到超时时间后,返回错误。

    /* Wait for more memory for a socket
     * @sk: socket to wait for memory
     * @timeo_p: for how long
     */
    
    int sk_stream_wait_memory(struct sock *sk, long *timeo_p)
    {
        int err = 0;
        long vm_wait = 0;
        long current_timeo = *timeo_p;
        DEFINE_WAIT(wait); /* 初始化等待任务 */
    
        /* 如果sock还有发送缓存额度,说明是TCP层内存不足导致的。
         * 初始化等待时间为一个2~202ms的伪随机数。
         */
        if (sk_stream_memory_free(sk))
            current_timeo = vm_wait = (prandom_u32() % (HZ / 5)) + 2;
    
        while (1) {
            /* 设置异步发送时,发送缓存不够的标志 */
            set_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags);
    
            /* 把等待任务加入到socket等待队列头部,把进程的状态设为TASK_INTERRUPTIBLE */
            prepare_to_wait(sk_sleep(sk), &wait, TASK_INTERRUPTIBLE);
    
            /* 如果连接有错误,或者不允许发送数据了,那么返回-EPIPE */
            if (sk->sk_err || (sk->sk_shutdown & SEND_SHUTDOWN))
                goto do_error;
    
            /* 如果是非阻塞的,或者等待超时了,返回-EAGAIN */
            if (! *timeo_p)
                goto do_nonblock;
    
            /* 如果进程有待处理的信号,如果没有设置超时时间返回-ERESTARTSYS,
             * 否则返回-EINTR.
             */
            if (signal_pending(current))
                goto do_interrupte;
     
            clear_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags);
    
            /* 如果sock已经有可用的发送缓存了。并满足以下任一条件:
             * 1. 此次等待是由于sock的发送缓存不足。 
             * 2. 此次等待是由于TCP层内存不足,经过了一次睡眠vm_wait设为0。 
             */
            if (sk_stream_memory_free(sk) && ! vm_wait)
                break;
     
            set_bit(SOCK_NOSPACE, &sk->sk_socket->flags);
            sk->sk_write_pending++;
    
            /* 进入睡眠等待 */
            sk_wait_event(sk, ¤tt_timeo, sk->sk_err ||
                (sk->sk_shutdown & SEND_SHUTDOWN) || 
                (sk_stream_memory_free(sk) && ! vm_wait)); 
            sk->sk_write_pending--;
    
            /* 如果vm_wait不为0,睡眠2~202ms后,就把vm_wait清零了 */
            if (vm_wait) {
                vm_wait -= current_timeo;
                current_timo = *timeo_p;
    
                if (current_timeo != MAX_SCHEDULE_TIMEOUT &&
                    (current_timeo -= vm_wait) < 0)
                    current_timeo = 0;
    
                vm_wait = 0;
            }
    
            *timeo_p = current_timeo; /* 更新发送的超时等待时间 */
        }
    
    out:
        /* 把等待任务从等待队列中删除,把当前进程的状态设为TASK_RUNNING */
        finish_wait(sk_sleep(sk), &wait);
        return err;
    
    do_error:
        err = -EPIPE;
        goto out;
    
    do_nonblock:
        err = -EAGAIN;
        goto out;
    
    do_interrupted:
        err = sock_intr_errno(*timeo_p);
        goto out;
    }
    

     

    因有发送缓存可写事件而被唤醒

    sk->sk_write_space的实例为sock_def_write_space()。

    如果socket是SOCK_STREAM类型的,那么函数指针的值会更新为sk_stream_write_space()。

    sk_stream_write_space()在TCP中的调用路径为:

    tcp_rcv_established / tcp_rcv_state_process

        tcp_data_snd_check

            tcp_check_space

                tcp_new_space

    static void tcp_check_space(struct sock *sk)
    {
        /* 如果发送队列中有skb被释放了 */
        if (sock_flag(sk, SOCK_QUEUE_SHRUNK)) {
    
            sock_reset_flag(sk, SOCK_QUEUE_SHRUNK);
    
            /* 如果设置了同步发送时,发送缓存不足的标志 */
            if (sk->sk_socket && test_bit(SOCK_NOSPACE, &sk->sk_socket->flags))
                tcp_new_space(sk); /* 更新发送缓存 */
        }
    }
    /* When incoming ACK allowed to free some skb from write_queue,
     * we remember this event in flag SOCK_QUEUE_SHRUNK and wake up socket
     * on the exit from tcp input handler.
     */
    static void tcp_new_space(struct sock *sk)
    {
        struct tcp_sock *tp = tcp_sk(sk);
    
        if (tcp_should_expand_sndbuf(sk)) {
            tcp_sndbuf_expand(sk);
            tp->snd_cwnd_stamp = tcp_time_stamp;
        }
    
        /* 检查是否需要触发有缓存可写事件 */
        sk->sk_write_space(sk);
    }
    
    void sk_stream_write_space(struct sock *sk)
    {
        struct socket *sock = sk->sk_socket;
        struct socket_wq *wq; /* 等待队列和异步通知队列 */
    
        /* 如果剩余的发送缓存不低于发送缓存上限的1/3,且尚未发送的数据不高于一定值时 */
        if (sk_stream_is_writeable(sk) && sock) {
            clear_bit(SOCK_NOSPACE, &sock->flags); /* 清除发送缓存不够的标志 */
    
            rcu_read_lock();
            wq = rcu_dereference(sk->sk_wq); /* socket的等待队列和异步通知队列 */
            if (wq_has_sleeper(wq)) /* 如果等待队列不为空,则唤醒一个睡眠进程 */
                wake_up_interruptible_poll(&wq->wait, POLLOUT | POLLWRNORM | POLLWRBAND);
    
            /* 异步通知队列不为空,且允许发送数据时。
             * 检测sock的发送队列是否曾经到达上限,如果有的话发送SIGIO信号,告知异步通知队列上
             * 的进程有发送缓存可写。
             */
            if (wq && wq->fasync_list && !(sk->sk_shutdown & SEND_SHUTDOWN))
                sock_wake_async(sock, SOCK_WAKE_SPACE, POLL_OUT);
    
            rcu_read_unlock();
        }
    }
    
    #define wake_up_interruptible_poll(x, m) 
        __wake_up(x, TASK_INTERRUPTIBLE, 1, (void *) (m))
    


    如果剩余的发送缓存大于发送缓存上限的1/3,且尚未发送的数据少于一定值时,才会触发有发送

    缓存可写的事件。

    static inline bool sk_stream_is_writeable(const struct sock *sk)
    {
        return sk_stream_wspace(sk) >= sk_stream_min_wspace(sk) &&
            sk_stream_memory_free(sk);
    }
    
    static inline int sk_stream_wspace(const struct sock *sk)
    {
        return sk->sk_sndbuf - sk->sk_wmem_queued;
    }
    
    static inline int sk_stream_min_wspace(const struct sock *sk)
    {
        return sk->sk_wmem_queued >> 1;
    }

    检查尚未发送的数据是否已经够多了,如果超过了用户设置的值,就不用触发有发送缓存可写事件,

    以免使用过多的内存。

    static inline bool sk_stream_memory_free(const struct sock *sk)
    {
        if (sk->sk_wmem_queued >= sk->sk_sndbuf)
            return false;
    
        return sk->sk_prot->stream_memory_free ? sk->sk_prot->stream_memory_free(sk) : true;
    }
    
    static inline bool tcp_stream_memory_free(const struct sock *sk)
    {
        const struct tcp_sock *tp = tcp_sk(sk);
        u32 notsent_bytes = tp->write_seq - tp->snd_nxt; /* 尚未发送的数据大小 */
    
        /* 当尚未发送的数据,少于配置的值时,才触发有发送缓存可写的事件。
         * 这是为了避免发送缓存占用过多的内存。
         */
        return notsent_bytes < tcp_notsent_lowat(tp);
    }

    如果有使用TCP_NOTSENT_LOWAT选项,则使用用户设置的值。

    否则使用sysctl_tcp_notsent_lowat,默认为无穷大。

    static inline u32 tcp_notsent_lowat(const struct tcp_sock *tp)
    {
        return tp->notsent_lowat ?: sysctl_tcp_notsent_lowat;
    }
  • 相关阅读:
    [CSP校内集训]2019.10.16数学专题
    Knights of the Round Table(缩点+判奇环) poj 2942 && 洛谷SP2878
    机房测试7:exam(二进制+模拟)
    机房测试9:gift(单调队列优化dp)
    机房测试9:hotel(神奇dp)
    机房测试8:question(求最大1矩阵:悬线法 or 二分)
    机房测试7:paint(分治+st表)
    机房测试6:矿石(优先队列)
    机房测试6:括号序列(hash+栈 )
    bzoj1123 && 洛谷 P3469 tarjan割点的运用
  • 原文地址:https://www.cnblogs.com/aiwz/p/6333229.html
Copyright © 2020-2023  润新知