• linux系统调用实现代码分析【转】


    转自:http://linux.chinaunix.net/doc/kernel/2001-07-30/637.shtml

    启动早就读完,现在为了写笔记再从启动之后粗略的大体读一遍,基本就是几个大模块:启动和初始化,中断信号, 
    进程及调度,内存管理,文件系统,网络,驱动和模块等,我主要也从这几块入手。由于启动部分在start_kernel之 
    前牵涉到大量的x86体系相关的汇编知识,需要大量的时间,于是我跳过,先把握整个系统的大体脉络,然后做二次, 
    三次分析。网络部分的分析,我会从4.4BSD-Lite的代码中分析。 
    
    系统调用: 
    
    先说一下系统调用,奇怪的很,所有的读核资料都没有把系统调用单独提出来说,我觉得还是比较重要的。用户和系 
    统内核通信的关键的枢纽,不过分吧,呵呵。仔细研究一下它的机制,准备花三天时间,手头有些书和资料,帮助我 
    理解。 
    
    概念:(明晰一下基本概念) 
    系统调用发生在用户进程,通过一些特殊的函数(如open)来请求内核提供服务,这时,用户进程挂起,内核验证用 
    户请求,尝试之行,并把结果反馈给用户进程,接着用户进程重新启动。这些机制在一般的编程书里都有,我就是来 
    通过源代码的实现来讨论这种机制。  
    
    具体实现代码:arch/i386/kernel/entry.S(内核版本2.2.14) 
    从entry.S的第171行,就是system_call开始,171-248行代码贴出来,分析以注释形式: 
    
    ENTRY(system_call)   \所有系统调用的入口点,参数system_call是所希望激活的系统调用的数 
    pushl %eax # 保存orig_eax,这个值就是希望系统调用数 
    SAVE_ALL    
    /*SAVE_ALL宏定义如下: 
    #define SAVE_ALL  
    cld;  
    pushl %es;  
    pushl %ds;  
    pushl %eax;  
    pushl %ebp;  
    pushl %edi;  
    pushl %esi;  
    pushl %edx;  
    pushl %ecx;  
    pushl %ebx;  
    movl $(__KERNEL_DS),%edx;  
    movl %dx,%ds;  
    movl %dx,%es; 
     他的作用是先把所有寄存器的值压栈,然后在system_call返回之前使用RESTORE_ALL把栈从栈中弹出,在这其中 
    system_call可以根据需要子去使用寄存器的值。任何它调用的c函数都可以从栈中查找到所希望的参数,因为 
    SAVE_ALL已经把所有寄存器的值都压入栈中了 */ 
    -------------------------------------------------------------------------------------------- 
    GET_CURRENT(%ebx)   /*利用GET_CURRENT宏从ebx中取得当前任务指针,GET_CURRENT宏定义如下:  
        #define GET_CURRENT(reg)  
    movl %esp, reg;  
    andl $-8192, reg;这段代码应该很好理解,把esp指移到reg变量,减去8129得到当前任务地址*/ 
    -------------------------------------------------------------------------------------------- 
    cmpl $(NR_syscalls),%eax  /*察看保存在eax中的系统调用数是否超过最大数(常数NR_syscalls代表系统调用的 
    最大数)如果确实超过了,请看下面一句:jae badsys,程序则跳转到badsys。*/ 
    jae badsys 
    testb $0x20,flags(%ebx) # PF_TRACESYS/*检查系统调用是否正在被跟踪*/ 
    jne tracesys  /*如果系统调用被跟踪,则程序跳转到tracesys*/ 
    call *SYMBOL_NAME(sys_call_table)(,%eax,4)/*调用系统函数*/ 
    /*SYMBOL_NAME宏不处理任何工作,只是简单的被文本参数(也就是系统调用名)所替换,所以可以忽略 
    sys_call_table也定义在entry.S(373行)中,是一张由指向实现各种系统调用的内核函数的函数指针组成的表: 
        ENTRY(sys_call_table) 
    .long SYMBOL_NAME(sys_ni_syscall) /* 0 - old "setup()" system call*/ 
    .long SYMBOL_NAME(sys_exit) 
    .long SYMBOL_NAME(sys_fork) 
    .long SYMBOL_NAME(sys_read) 
    .long SYMBOL_NAME(sys_write) 
    .long SYMBOL_NAME(sys_open) /* 5 */ 
    .long SYMBOL_NAME(sys_close) 
    .long SYMBOL_NAME(sys_waitpid) 
    .long SYMBOL_NAME(sys_creat) 
    .long SYMBOL_NAME(sys_link) 
    .long SYMBOL_NAME(sys_unlink) /* 10 */ 
    .long SYMBOL_NAME(sys_execve) 
    .long SYMBOL_NAME(sys_chdir) 
    .long SYMBOL_NAME(sys_time) 
    .long SYMBOL_NAME(sys_mknod) 
    .long SYMBOL_NAME(sys_chmod) /* 15 */ 
    .long SYMBOL_NAME(sys_lchown) 
    .long SYMBOL_NAME(sys_ni_syscall) /* old break syscall holder */ 
    .long SYMBOL_NAME(sys_stat) 
    .long SYMBOL_NAME(sys_lseek) 
    .long SYMBOL_NAME(sys_getpid) /* 20 */ 
    .long SYMBOL_NAME(sys_mount) 
    .long SYMBOL_NAME(sys_oldumount) 
    .long SYMBOL_NAME(sys_setuid) 
    .long SYMBOL_NAME(sys_getuid) 
    .long SYMBOL_NAME(sys_stime) /* 25 */ 
    .long SYMBOL_NAME(sys_ptrace) 
    .long SYMBOL_NAME(sys_alarm) 
    .long SYMBOL_NAME(sys_fstat) 
    .long SYMBOL_NAME(sys_pause) 
    .long SYMBOL_NAME(sys_utime) /* 30 */ 
    .long SYMBOL_NAME(sys_ni_syscall) /* old stty syscall holder */ 
    .long SYMBOL_NAME(sys_ni_syscall) /* old gtty syscall holder */ 
    .long SYMBOL_NAME(sys_access) 
    .long SYMBOL_NAME(sys_nice) 
    .long SYMBOL_NAME(sys_ni_syscall) /* 35 */ /* old ftime syscall holder */ 
    .long SYMBOL_NAME(sys_sync) 
    .long SYMBOL_NAME(sys_kill) 
    .long SYMBOL_NAME(sys_rename) 
    .long SYMBOL_NAME(sys_mkdir) 
    .long SYMBOL_NAME(sys_rmdir) /* 40 */ 
    .long SYMBOL_NAME(sys_dup) 
    .long SYMBOL_NAME(sys_pipe) 
    .long SYMBOL_NAME(sys_times) 
    .long SYMBOL_NAME(sys_ni_syscall) /* old prof syscall holder */ 
    .long SYMBOL_NAME(sys_brk) /* 45 */ 
    .long SYMBOL_NAME(sys_setgid) 
    .long SYMBOL_NAME(sys_getgid) 
    .long SYMBOL_NAME(sys_signal) 
    .long SYMBOL_NAME(sys_geteuid) 
    .long SYMBOL_NAME(sys_getegid) /* 50 */ 
    .long SYMBOL_NAME(sys_acct) 
    .long SYMBOL_NAME(sys_umount) /* recycled never used phys() */ 
    .long SYMBOL_NAME(sys_ni_syscall) /* old lock syscall holder */ 
    .long SYMBOL_NAME(sys_ioctl) 
    .long SYMBOL_NAME(sys_fcntl) /* 55 */ 
    .long SYMBOL_NAME(sys_ni_syscall) /* old mpx syscall holder */ 
    .long SYMBOL_NAME(sys_setpgid) 
    .long SYMBOL_NAME(sys_ni_syscall) /* old ulimit syscall holder */ 
    .long SYMBOL_NAME(sys_olduname) 
    .long SYMBOL_NAME(sys_umask) /* 60 */ 
    .long SYMBOL_NAME(sys_chroot) 
    .long SYMBOL_NAME(sys_ustat) 
    .long SYMBOL_NAME(sys_dup2) 
    .long SYMBOL_NAME(sys_getppid) 
    .long SYMBOL_NAME(sys_getpgrp) /* 65 */ 
    .long SYMBOL_NAME(sys_setsid) 
    .long SYMBOL_NAME(sys_sigaction) 
    .long SYMBOL_NAME(sys_sgetmask) 
    .long SYMBOL_NAME(sys_ssetmask) 
    .long SYMBOL_NAME(sys_setreuid) /* 70 */ 
    .long SYMBOL_NAME(sys_setregid) 
    .long SYMBOL_NAME(sys_sigsuspend) 
    .long SYMBOL_NAME(sys_sigpending) 
    .long SYMBOL_NAME(sys_sethostname) 
    .long SYMBOL_NAME(sys_setrlimit) /* 75 */ 
    .long SYMBOL_NAME(sys_getrlimit) 
    .long SYMBOL_NAME(sys_getrusage) 
    .long SYMBOL_NAME(sys_gettimeofday) 
    .long SYMBOL_NAME(sys_settimeofday) 
    .long SYMBOL_NAME(sys_getgroups) /* 80 */ 
    .long SYMBOL_NAME(sys_setgroups) 
    .long SYMBOL_NAME(old_select) 
    .long SYMBOL_NAME(sys_symlink) 
    .long SYMBOL_NAME(sys_lstat) 
    .long SYMBOL_NAME(sys_readlink) /* 85 */ 
    .long SYMBOL_NAME(sys_uselib) 
    .long SYMBOL_NAME(sys_swapon) 
    .long SYMBOL_NAME(sys_reboot) 
    .long SYMBOL_NAME(old_readdir) 
    .long SYMBOL_NAME(old_mmap) /* 90 */ 
    .long SYMBOL_NAME(sys_munmap) 
    .long SYMBOL_NAME(sys_truncate) 
    .long SYMBOL_NAME(sys_ftruncate) 
    .long SYMBOL_NAME(sys_fchmod) 
    .long SYMBOL_NAME(sys_fchown) /* 95 */ 
    .long SYMBOL_NAME(sys_getpriority) 
    .long SYMBOL_NAME(sys_setpriority) 
    .long SYMBOL_NAME(sys_ni_syscall) /* old profil syscall holder */ 
    .long SYMBOL_NAME(sys_statfs) 
    .long SYMBOL_NAME(sys_fstatfs) /* 100 */ 
    .long SYMBOL_NAME(sys_ioperm) 
    .long SYMBOL_NAME(sys_socketcall) 
    .long SYMBOL_NAME(sys_syslog) 
    .long SYMBOL_NAME(sys_setitimer) 
    .long SYMBOL_NAME(sys_getitimer) /* 105 */ 
    .long SYMBOL_NAME(sys_newstat) 
    .long SYMBOL_NAME(sys_newlstat) 
    .long SYMBOL_NAME(sys_newfstat) 
    .long SYMBOL_NAME(sys_uname) 
    .long SYMBOL_NAME(sys_iopl) /* 110 */ 
    .long SYMBOL_NAME(sys_vhangup) 
    .long SYMBOL_NAME(sys_idle) 
    .long SYMBOL_NAME(sys_vm86old) 
    .long SYMBOL_NAME(sys_wait4) 
    .long SYMBOL_NAME(sys_swapoff) /* 115 */ 
    .long SYMBOL_NAME(sys_sysinfo) 
    .long SYMBOL_NAME(sys_ipc) 
    .long SYMBOL_NAME(sys_fsync) 
    .long SYMBOL_NAME(sys_sigreturn) 
    .long SYMBOL_NAME(sys_clone) /* 120 */ 
    .long SYMBOL_NAME(sys_setdomainname) 
    .long SYMBOL_NAME(sys_newuname) 
    .long SYMBOL_NAME(sys_modify_ldt) 
    .long SYMBOL_NAME(sys_adjtimex) 
    .long SYMBOL_NAME(sys_mprotect) /* 125 */ 
    .long SYMBOL_NAME(sys_sigprocmask) 
    .long SYMBOL_NAME(sys_create_module) 
    .long SYMBOL_NAME(sys_init_module) 
    .long SYMBOL_NAME(sys_delete_module) 
    .long SYMBOL_NAME(sys_get_kernel_syms) /* 130 */ 
    .long SYMBOL_NAME(sys_quotactl) 
    .long SYMBOL_NAME(sys_getpgid) 
    .long SYMBOL_NAME(sys_fchdir) 
    .long SYMBOL_NAME(sys_bdflush) 
    .long SYMBOL_NAME(sys_sysfs) /* 135 */ 
    .long SYMBOL_NAME(sys_personality) 
    .long SYMBOL_NAME(sys_ni_syscall) /* for afs_syscall */ 
    .long SYMBOL_NAME(sys_setfsuid) 
    .long SYMBOL_NAME(sys_setfsgid) 
    .long SYMBOL_NAME(sys_llseek) /* 140 */ 
    .long SYMBOL_NAME(sys_getdents) 
    .long SYMBOL_NAME(sys_select) 
    .long SYMBOL_NAME(sys_flock) 
    .long SYMBOL_NAME(sys_msync) 
    .long SYMBOL_NAME(sys_readv) /* 145 */ 
    .long SYMBOL_NAME(sys_writev) 
    .long SYMBOL_NAME(sys_getsid) 
    .long SYMBOL_NAME(sys_fdatasync) 
    .long SYMBOL_NAME(sys_sysctl) 
    .long SYMBOL_NAME(sys_mlock) /* 150 */ 
    .long SYMBOL_NAME(sys_munlock) 
    .long SYMBOL_NAME(sys_mlockall) 
    .long SYMBOL_NAME(sys_munlockall) 
    .long SYMBOL_NAME(sys_sched_setparam) 
    .long SYMBOL_NAME(sys_sched_getparam)  /* 155 */ 
    .long SYMBOL_NAME(sys_sched_setscheduler) 
    .long SYMBOL_NAME(sys_sched_getscheduler) 
    .long SYMBOL_NAME(sys_sched_yield) 
    .long SYMBOL_NAME(sys_sched_get_priority_max) 
    .long SYMBOL_NAME(sys_sched_get_priority_min) /* 160 */ 
    .long SYMBOL_NAME(sys_sched_rr_get_interval) 
    .long SYMBOL_NAME(sys_nanosleep) 
    .long SYMBOL_NAME(sys_mremap) 
    .long SYMBOL_NAME(sys_setresuid) 
    .long SYMBOL_NAME(sys_getresuid) /* 165 */ 
    .long SYMBOL_NAME(sys_vm86) 
    .long SYMBOL_NAME(sys_query_module) 
    .long SYMBOL_NAME(sys_poll) 
    .long SYMBOL_NAME(sys_nfsservctl) 
    .long SYMBOL_NAME(sys_setresgid) /* 170 */ 
    .long SYMBOL_NAME(sys_getresgid) 
    .long SYMBOL_NAME(sys_prctl) 
    .long SYMBOL_NAME(sys_rt_sigreturn) 
    .long SYMBOL_NAME(sys_rt_sigaction) 
    .long SYMBOL_NAME(sys_rt_sigprocmask) /* 175 */ 
    .long SYMBOL_NAME(sys_rt_sigpending) 
    .long SYMBOL_NAME(sys_rt_sigtimedwait) 
    .long SYMBOL_NAME(sys_rt_sigqueueinfo) 
    .long SYMBOL_NAME(sys_rt_sigsuspend) 
    .long SYMBOL_NAME(sys_pread) /* 180 */ 
    .long SYMBOL_NAME(sys_pwrite) 
    .long SYMBOL_NAME(sys_chown) 
    .long SYMBOL_NAME(sys_getcwd) 
    .long SYMBOL_NAME(sys_capget) 
    .long SYMBOL_NAME(sys_capset)      /* 185 */ 
    .long SYMBOL_NAME(sys_sigaltstack) 
    .long SYMBOL_NAME(sys_sendfile) 
    .long SYMBOL_NAME(sys_ni_syscall) /* streams1 */ 
    .long SYMBOL_NAME(sys_ni_syscall) /* streams2 */ 
    .long SYMBOL_NAME(sys_vfork)      /* 190 */ 
     我们来继续看本行的三个参数:(,%eax,4),实现数组索引。当然,这个数组是以sys_call_table作为索引的, 
    称为偏移。三个参数分别代表:数组的基地址,索引(eax,也就是系统调用数)和大小,或每个数组元素中的字 
    节数-----这里是4。由于数组基地址为空,所以赋予0---但它需要和偏移地址sys_call_table相加,简单的说是 
    sys_call_table被当作数组的基地址。我把本行用c重写如下: 
    (sys_call_table)[EAX](); 
    当然,c还要处理许多工作,如为你纪录数组元素的大小。不要忘记,系统调用的参数早已经存储在堆栈中了, 
    以便于system_call使用SAVE_ALL把他们压栈。 
    -------------------------------------------------------------------------------------------- 
    movl %eax,EAX(%esp) # 系统调用返回 
    /*它在EAX寄存器中的返回值(这个值同时也是system_call的返回值)被存储了起来。返回值被存储在堆栈中的 
    EAX内,以使得RESTORE_ALL可以迅速地恢复实际的EAX寄存器及其他寄存器的值。*/ 
    
    
     以下代码依然是system_call的一部分,是一个可以命名为ret_from_sys_call和ret_from_intr的独立入口点。 
    它们偶尔会被c直接调用,也可以从system_call的其他部分跳转过来。 
    ALIGN 
    .globl ret_from_sys_call 
    .globl ret_from_intr 
    ret_from_sys_call: 
    movl SYMBOL_NAME(bh_mask),%eax 
    andl SYMBOL_NAME(bh_active),%eax 
    jne handle_bottom_half 
    /*检测bottom half是否激活,如果激活,程序就跳转到handle_bottom_half执行,bottom half是中断进程的一部 
    分,以后再提及,中断进程我的概念也很模糊。*/ 
    ret_with_reschedule: 
    cmpl $0,need_resched(%ebx)/*检查进程是否为再次调度做了标记*/ 
    jne reschedule/*如果是,就跳转到reschedule*/ 
    cmpl $0,sigpending(%ebx)/*检查是否还有挂起信号*/ 
    jne signal_return/*如果有,则程序跳转到signal_return*/ 
    restore_all: 
    RESTORE_ALL/*system_call的退出点,参看前面SAVE_ALL的用法*/ 
    
    ALIGN 
    signal_return:/*当system_call从系统调用返回前,如果它检测到需要将信号传送给当前的进程时,才会执行到 
    signal_return。它通过使中断再次可用开始执行。*/ 
    sti # we can get here from an interrupt handler 
    testl $(VM_MASK),EFLAGS(%esp)/*检测是否返回虚拟8086模式*/ 
    movl %esp,%eax 
    jne v86_signal_return/*如果是,就跳转到v86_signal_return(由于虚拟8086我也不太理解,所以就跳过了,:(*/ 
    xorl %edx,%edx /*system_call需要调用c函数do_signal来释放信号。do_signal需要两个参数,这两个参数都是 
    通过寄存器来传递的;第一个是EAX寄存器,另一个是edx寄存器。system_call已经把第一个参数的值赋给了eax; 
    现在,把edx寄存器和寄存器本身进行xor操作,从而将其清0,这样do_signal就认为这是一个空指针。*/ 
    call SYMBOL_NAME(do_signal) /*好,现在就可以调用do_signal来传递信号了*/ 
    jmp restore_all /*然后跳转到restore_all结束*/ 
    
    ALIGN 
    v86_signal_return: 
    call SYMBOL_NAME(save_v86_state) 
    movl %eax,%esp 
    xorl %edx,%edx 
    call SYMBOL_NAME(do_signal) 
    jmp restore_all 
    
    ALIGN 
    tracesys: /*前面说过,当有当前进程的系统调用被其祖先跟踪,如strace或truss程序,程序就跳转到此。*/ 
    movl $-ENOSYS,EAX(%esp) /*system_call把存储在堆栈中的EAX拷贝赋予-ENOSYS。*/ 
    call SYMBOL_NAME(syscall_trace) /*调用syscall_trace*/ 
    movl ORIG_EAX(%esp),%eax /*在172行再从所作的拷贝中恢复EAX的值*/ 
    call *SYMBOL_NAME(sys_call_table)(,%eax,4) /*调用实际的系统调用。*/ 
    movl %eax,EAX(%esp) /*把系统调用的返回值置入堆栈中EAX的位置。*/ 
    call SYMBOL_NAME(syscall_trace) /*再次调用syscall_trace*/ 
    jmp ret_from_sys_call /*被跟踪的系统调用已经返回,控制流程跳转到ret_from_sys_call*/ 
    badsys: /*前面说过,当系统调用数超过边界值时程序就跳转到这里。*/ 
    movl $-ENOSYS,EAX(%esp) /*这时system_call必须返回-ENOSYS,82行把ENOSYS赋值为38。调用者会识别这个错误*/ 
    jmp ret_from_sys_call  /*跳转到ret_from_sys_call*/ 
    
    ALIGN 
    ret_from_exception:/*在诸如除0之类的cpu异常中断情况下将执行到这里;system_call内部代码不会执行到这个标号*/ 
    movl SYMBOL_NAME(bh_mask),%eax 
    andl SYMBOL_NAME(bh_active),%eax 
    jne handle_bottom_half 
    ALIGN 
    ret_from_intr: 
    GET_CURRENT(%ebx) 
    movl EFLAGS(%esp),%eax # mix EFLAGS and CS 
    movb CS(%esp),%al 
    testl $(VM_MASK | 3),%eax # return to VM86 mode or non-supervisor? 
    jne ret_with_reschedule 
    jmp restore_all 
    
    ALIGN 
    handle_bottom_half: 
    call SYMBOL_NAME(do_bottom_half) 
    jmp ret_from_intr 
    
    ALIGN 
    reschedule: 
    call SYMBOL_NAME(schedule)  # test 
    jmp ret_from_sys_call 
    这以上的代码,我都还不太怎么明白,等我弄明白了就补齐,但基本的system_call的内部核心代码都介绍完了。后几 
    天我会分析几个系统调用的样例来帮助理 
  • 相关阅读:
    [洛谷2397]yyy loves Maths VI
    subs函数
    JSON 对象和字符串
    JSON添加注释的问题
    给定一个数组求里面数字拼在一起组成的最小数字
    为什么集合类没有实现Cloneable和Serializable接口
    Java 接口
    Unicode(统一码、万国码、单一码)
    meta 中的属性viewport
    meta标签
  • 原文地址:https://www.cnblogs.com/sky-heaven/p/6985616.html
Copyright © 2020-2023  润新知