• 使用/proc实现内核与用户空间通信


    1. 前言

     
    Linux内核空间与用户空间的通信可通过"/proc"目录的文件读写来实现,如果只是控制内核中的参数而不是传输较多数据的话,用“/proc”是很合适的。另外一种内核与用户空间通信方式方式是使用内核设备的读写或IOCTL来实现,以后再介绍。
     
    2. /proc概述
     
    /proc目录是系统模拟出来的一个文件系统,本身并不存在于磁盘上,其中的文件都表示内核参数的信息,这些信息分两类,一类是可都可写的,这类参数都在“/proc/sys”目录下,另一类是只读的,就是“/proc/sys”目录之外的其他目录和文件,当然这只是一种惯例,实际在其他目录下建立可读写的/proc文件也是可以的。
     
    操作/proc目录不需要特殊工具,在用户层看来就是一普通文件,在shell中用“cat”命令进行查看,用“echo”命令来写文件信息。
     
    Linux内核在2.4以后/proc目录文件的建立已经变得很容易,以前版本都还需要构造文件操作结构来实现,现在只需要调用简单函数就可以了。/proc文件通过是create_proc_entry()函数来建立,使用remove_proc_entry()函数来删除,建立新目录可以通过proc_mkdir()函数调用,这些函数在fs/proc/generic.c中定义,通常我们不必直接使用create_proc_entry()函数来建立,而是通过这个函数的包裹函数来实现。
     
    3. 只读/proc文件
     
    内核编译选项要设置CONFIG_PROC_FS。
     
    3.1 建立/proc只读项
     
    只读的/proc文件可以通过create_proc_read_entry()或create_proc_info_entry()函数来建立,在模块初始化时调用,:
    /* include/linux/proc_fs.h */

    static inline struct proc_dir_entry *create_proc_read_entry(const char *name,
     mode_t mode, struct proc_dir_entry *base, 
     read_proc_t *read_proc, void * data)
    {
     struct proc_dir_entry *res=create_proc_entry(name,mode,base);
     if (res) {
      res->read_proc=read_proc;
      res->data=data;
     }
     return res;
    }
     
    该函数需要5个参数:
    name:要建立的文件名
    mode:文件模式
    base:所在的目录
    read_proc:这是个函数指针,表示读取文件内容的函数
    data:传递给read_proc函数的用户参数指针
     
    static inline struct proc_dir_entry *create_proc_info_entry(const char *name,
     mode_t mode, struct proc_dir_entry *base, get_info_t *get_info)
    {
     struct proc_dir_entry *res=create_proc_entry(name,mode,base);
     if (res) res->get_info=get_info;
     return res;
    }

    该函数需要4个参数:
    name:要建立的文件名
    mode:文件模式
    base:所在的目录
    get_info:这是个函数指针,表示读取文件内容的函数,这个函数比上面的read_proc函数少一个用户输入参数
     
    对于base,内核已经预定义了一些目录/proc/net, /procbus, /proc/fs, /proc/driver, 这些是在fs/proc/root.c中定义的:
     
    struct proc_dir_entry *proc_net, *proc_bus, *proc_root_fs, *proc_root_driver;
     
    3.2 删除/proc只读项
     
    只读的/proc文件可以通过remove_proc_entry()函数来建立,在模块删除时调用,该函数在fs/proc/generic.c中定义:
     
    void remove_proc_entry(const char *name, struct proc_dir_entry *parent)
    该函数需要2个参数:
    name:要建立的文件名
    parent:父目录
     
    3.3 网络相关/proc的建立和删除
     
    对于网络参数(/proc/net),内核更提供了proc_net_create()和proc_net_remove()包裹函数来建立和删除/proc/net文件:
     
    static inline struct proc_dir_entry *proc_net_create(const char *name,
     mode_t mode, get_info_t *get_info)
    {
     return create_proc_info_entry(name,mode,proc_net,get_info);
    }
    static inline void proc_net_remove(const char *name)
    {
     remove_proc_entry(name,proc_net);
    }
     
    proc_net就是已经预定义好的"/proc/net"目录的指针,这样在建立网络部分的只读文件时就直接调用这两个函数就可以了。
     
    3.4 举例
    net/ipv4/af_inet.c:
    ...
    // 建立/proc/net/netstat文件
     proc_net_create ("netstat", 0, netstat_get_info);
    ...
     
    netstat_get_info()函数在net/ipv4/proc.c文件中定义,函数的参数格式是固定的:
    //buffer是数据输出的缓冲区,要输出的数据都写到这个缓冲区;
    //start用来返回buffer中起始数据的位置;
    //offset指定偏移start所指数据相对buffer起点的偏移,实际start是通过buffer和
    //offset计算出来的;
    //length表示buffer的长度,是由内核自己分配的,编程时要检查向缓冲区写的数据长度
    //是否超过length规定的限值。
     
    int netstat_get_info(char *buffer, char **start, off_t offset, int length)
    {
     int len, i;
    // len记录写入缓冲区的数据长度,所有数据长度都要累加
     len = sprintf(buffer,
            "TcpExt: SyncookiesSent SyncookiesRecv SyncookiesFailed"
            " EmbryonicRsts PruneCalled RcvPruned OfoPruned"
            " OutOfWindowIcmps LockDroppedIcmps ArpFilter"
            " TW TWRecycled TWKilled"
            " PAWSPassive PAWSActive PAWSEstab"
            " DelayedACKs DelayedACKLocked DelayedACKLost"
            " ListenOverflows ListenDrops"
            " TCPPrequeued TCPDirectCopyFromBacklog"
            " TCPDirectCopyFromPrequeue TCPPrequeueDropped"
            " TCPHPHits TCPHPHitsToUser"
            " TCPPureAcks TCPHPAcks"
            " TCPRenoRecovery TCPSackRecovery"
            " TCPSACKReneging"
            " TCPFACKReorder TCPSACKReorder TCPRenoReorder TCPTSReorder"
            " TCPFullUndo TCPPartialUndo TCPDSACKUndo TCPLossUndo"
            " TCPLoss TCPLostRetransmit"
            " TCPRenoFailures TCPSackFailures TCPLossFailures"
            " TCPFastRetrans TCPForwardRetrans TCPSlowStartRetrans"
            " TCPTimeouts"
            " TCPRenoRecoveryFail TCPSackRecoveryFail"
            " TCPSchedulerFailed TCPRcvCollapsed"
            " TCPDSACKOldSent TCPDSACKOfoSent TCPDSACKRecv TCPDSACKOfoRecv"
            " TCPAbortOnSyn TCPAbortOnData TCPAbortOnClose"
            " TCPAbortOnMemory TCPAbortOnTimeout TCPAbortOnLinger"
            " TCPAbortFailed TCPMemoryPressures/n"
            "TcpExt:");
     for (i=0; i<offsetof(struct linux_mib, __pad)/sizeof(unsigned long); i++)
      len += sprintf(buffer+len, " %lu", fold_field((unsigned long*)net_statistics, sizeof(struct linux_mib), i));
     len += sprintf (buffer + len, "/n");
     if (offset >= len)
     {
      *start = buffer;
      return 0;
     }
    //计算数据起始指针
     *start = buffer + offset;
     len -= offset;
    // 检查写入的长度是否溢出
     if (len > length)
      len = length;
     if (len < 0)
      len = 0; 
     return len;
    }
     
    4. 可读写的/proc文件
     
    要支持可读写的/proc,内核编译选项要设置CONFIG_SYSCTL。
     
    可读写/proc文件按惯例通常放在/proc/sys目录下,这些文件对应的内核参数或者是全局变量,或者是动态分配的内存空间,不能是临时变量。
     
    4.1 建立函数
     
    建立可读写的/proc文件使用register_sysctl_table()函数来登记,该函数在kernel/sysctl.c中定义,声明如下:
     
    struct ctl_table_header *register_sysctl_table(ctl_table * table,  int insert_at_head);
     
    该函数返回一个struct ctl_table_header结构的指针,在释放时使用;
    该函数第一个参数table是sysctl控制表,定义如下:
     
    /* include/linux/sysctl.h */
    typedef struct ctl_table ctl_table;
    struct ctl_table 
    {
     int ctl_name;  /* 数值表示的该项的ID */
     const char *procname; /* 名称 */
     void *data;             /* 对于的内核参数 */
     int maxlen;             /* 该参数所占的存储空间 */
     mode_t mode;            /* 权限模式:rwxrwxrwx */
     ctl_table *child;       /* 子目录表 */
     proc_handler *proc_handler; /* 读写数据处理的回调函数 */
     ctl_handler *strategy;  /* 读/写时的回调函数,是对数据的预处理,
         该函数是在读或写操作之前执行,该函数返回值
         <0表示出错;==0表示正确,继续读或写;>0表
         示读/写操作已经在函数中完成,可以直接返回了*/
     struct proc_dir_entry *de; /* /proc控制块指针 */
     void *extra1;  /* 额外参数,常在设置数据范围时用来表示最大最小值 */
     void *extra2;
    };
    注意该结构中的第6个参数子目录表,这使得该表成为树型结构。
     
    第二个参数表示链表的插入方式,是插入到链表头还是链表尾;

    由此可知重要的是struct ctl_table结构的填写,而最重要的是结构项proc_handler,该函数处理数据的输入和输出,如果不是目录而是文件,该项是不可或缺的。早期内核版本中这些都需要单独编写,现在2.4以后内核提供了一些函数可以完成大部分的数据输入输出功能:
     
    // 处理字符串数据
    extern int proc_dostring(ctl_table *, int, struct file *,
        void *, size_t *);
    // 处理整数向量
    extern int proc_dointvec(ctl_table *, int, struct file *,
        void *, size_t *);
    // 处理整数向量,但init进程处理时稍有区别
    extern int proc_dointvec_bset(ctl_table *, int, struct file *,
             void *, size_t *);
    // 处理最大最小值形式的整数向量
    extern int proc_dointvec_minmax(ctl_table *, int, struct file *,
        void *, size_t *);
    // 处理最大最小值形式的无符合长整数向量
    extern int proc_doulongvec_minmax(ctl_table *, int, struct file *,
          void *, size_t *);
    // 处理整数向量,但用户数据作为秒数,转化为jiffies值,常用于时间控制
    extern int proc_dointvec_jiffies(ctl_table *, int, struct file *,
         void *, size_t *);
    // 处理无符合长整数向量,用户数据作为为毫秒值,转化为jiffies值,常用于时间控制
    extern int proc_doulongvec_ms_jiffies_minmax(ctl_table *table, int,
              struct file *, void *, size_t *);

    举例,以下代码取自net/ipv4/netfilter/ip_conntrack_standalone.c:
     
    static ctl_table ip_ct_sysctl_table[] = {
     {NET_IPV4_NF_CONNTRACK_MAX, "ip_conntrack_max",
      &ip_conntrack_max, sizeof(int), 0644, NULL,
      &proc_dointvec},
     {NET_IPV4_NF_CONNTRACK_BUCKETS, "ip_conntrack_buckets",
      &ip_conntrack_htable_size, sizeof(unsigned int), 0444, NULL,
      &proc_dointvec},
     {NET_IPV4_NF_CONNTRACK_TCP_TIMEOUT_SYN_SENT, "ip_conntrack_tcp_timeout_syn_sent",
      &ip_ct_tcp_timeout_syn_sent, sizeof(unsigned int), 0644, NULL,
      &proc_dointvec_jiffies},
    ......
     {0}
    };

    static ctl_table ip_ct_netfilter_table[] = {
     {NET_IPV4_NETFILTER, "netfilter", NULL, 0, 0555, ip_ct_sysctl_table, 0, 0, 0, 0, 0},
     {NET_IP_CONNTRACK_MAX, "ip_conntrack_max",
      &ip_conntrack_max, sizeof(int), 0644, NULL,
      &proc_dointvec},
     {0}
    };
    static ctl_table ip_ct_ipv4_table[] = {
     {NET_IPV4, "ipv4", NULL, 0, 0555, ip_ct_netfilter_table, 0, 0, 0, 0, 0},
     {0}
    };
    static ctl_table ip_ct_net_table[] = {
     {CTL_NET, "net", NULL, 0, 0555, ip_ct_ipv4_table, 0, 0, 0, 0, 0},
     {0}
    };
    static int init_or_cleanup(int init)
    {
    ...
     ip_ct_sysctl_header = register_sysctl_table(ip_ct_net_table, 0);
    ...
    }

    有些/proc/sys的文件控制比较复杂,参数的输入实际是一个触发信息来执行一系列操作,这时这些缺省处理函数功能就不足了,就需要单独编写ctl_table结构中的proc_handle和strategy函数。如对于/proc/sys/net/ipv4/ip_forward文件,对应的内核参数是ipv4_devconf.forwarding,如果该值改变,会将所有网卡设备的forwarding属性值进行改变,定义如下:
     
    /* net/ipv4/sysctl_net_ipv4.c */
    static
    int ipv4_sysctl_forward(ctl_table *ctl, int write, struct file * filp,
       void *buffer, size_t *lenp)
    {
    // 保持当前的forwarding值
     int val = ipv4_devconf.forwarding;
     int ret;
    // 完成/proc/sys的读写操作,如果是写操作,forwarding值已经改为新值
     ret = proc_dointvec(ctl, write, filp, buffer, lenp);
    // 写操作,forwarding值改变,用新的forwarding值修改所有网卡的forwarding属性
     if (write && ipv4_devconf.forwarding != val)
      inet_forward_change(ipv4_devconf.forwarding);
     return ret;
    }
    static int ipv4_sysctl_forward_strategy(ctl_table *table, int *name, int nlen,
        void *oldval, size_t *oldlenp,
        void *newval, size_t newlen, 
        void **context)
    {
     int new;
     if (newlen != sizeof(int))
      return -EINVAL;
     if (get_user(new,(int *)newval))
      return -EFAULT; 
     if (new != ipv4_devconf.forwarding) 
      inet_forward_change(new); 
    // 把forwarding值赋值为新值后应该可以返回>0的数的,现在不赋值只能返回0继续了
    // 不过该strategy函数好象不是必要的,上面的proc_handler函数已经可以处理了
     return 0; /* caller does change again and handles handles oldval */ 
    }

    ctl_table ipv4_table[] = {
    ......
            {NET_IPV4_FORWARD, "ip_forward",
             &ipv4_devconf.forwarding, sizeof(int), 0644, NULL,
             &ipv4_sysctl_forward,&ipv4_sysctl_forward_strategy},
    ......
     
    4.2 释放函数
     
    释放可读写的/proc文件使用unregister_sysctl_table()函数,该函数在kernel/sysctl.c中定义,声明如下:
    void unregister_sysctl_table(struct ctl_table_header * header)
     
    参数就是建立时的返回的struct ctl_table_header结构指针,通常在模块释放函数中调用。

    5. 结论
     
    内核中/proc编程现在已经很简单,将/proc目录作为单个的内核参数的控制是很合适的,但不适合大批量的数据传输。
  • 相关阅读:
    shell bash memo
    python performance measure 02
    跨域的几种方法
    表示集合的数据结构:数组(Array),对象(Object),Map和Set
    [H5]range对象的setStart/setEnd方法
    文件上传:input file FileReader
    localStorage,sessionStorage,cookie使用场景和区别
    设置获取cookie,setCookie,getCookie
    js中__proto__, property, prototype, 对象自身属性方法和原型中的属性方法的区别
    使用正则表达式--切分字符串
  • 原文地址:https://www.cnblogs.com/Huluwa-Vs-Aoteman/p/3454793.html
Copyright © 2020-2023  润新知