20145214 《信息安全系统设计基础》第13周学习总结
教材学习内容总结
并发编程
-
程序级并发——进程
-
函数级并发——线程
-
三种基本的构造并发程序的方法:
1、进程:每个逻辑控制流是一个进程,由内核进行调度,进程有独立的虚拟地址空间 2、I/O多路复用:逻辑流被模型化为状态机,所有流共享同一个地址空间 3、线程:运行在单一进程上下文中的逻辑流,由内核进行调度,共享同一个虚拟地址空间
基于进程的并发编程
-
构造并发程序最简单的方法——用进程。常用函数如下:fork,exec,waitpid
-
构造并发服务器:在父进程中接受客户端连接请求,然后创建一个新的子进程来为每个新客户端提供服务。
-
需要注意的事情:
1.父进程需要关闭它的已连接描述符的拷贝(子进程也需要关闭) 2.必须要包括一个SIGCHLD处理程序来回收僵死子进程的资源 3.父子进程之间共享文件表,但是不共享用户地址空间
-
独立地址空间的优点是防止虚拟存储器被错误覆盖,缺点是开销高,共享状态信息才需要IPC机制
基于I/O多路复用的并发编程
-
I/O多路复用技术使用select函数要求内核挂起进程,只有在一个或多个I/O事件发生后,才将控制返回给应用程序。
-
select函数处理类型为fd_set的集合,即描述符集合,并在逻辑上描述为一个大小为n的位向量,每一位b[k]对应描述符k,但当且仅当b[k]=1,描述符k才表明是描述符集合的一个元素。
-
描述符能做的三件事:
1、分配他们 2、将一个此种类型的变量赋值给另一个变量 3、用FD_ZERO、FD_SET、FD_CLR和FD_ISSET宏指令来修改和检查它们
-
当且仅当一个从该描述符读取一个字节的请求不会阻塞时,描述符k表示准备好可以读了
-
我们必须在每次调用select时都更新读集合
-
事件驱动程序:将逻辑流模型化为状态机。
-
一个状态机就是一组状态、输入事件和转移,其中转移就是将状态和输入事件映射到状态。
-
基于I/O多路复用的并发事件驱动服务器的流程如下:
•select函数检测到输入事件 •add_client函数创建新状态机 •check_clients函数执行状态转移(在课本的例题中是回送输入行),并且完成时删除该状态机。
基于线程的并发编程
-
线程:就是运行在进程上下文中的逻辑流。
-
线程由内核自动调度。每个线程都有它自己的线程上下文:
•一个唯一的整数线程ID——TID •栈 •栈指针 •程序计数器 •通用目的寄存器 •条件码
线程执行模型
-
在每个进程开始生命周期时都是单一线程——主线程,与其他进程的区别仅有:它总是进程中第一个运行的线程。
-
对等线程是某时刻主线程创建,之后两个线程并发运行每个对等线程都能读写相同的共享数据。
-
主线程切换到对等线程的方式是上下文切换,对等线程执行一段时间后会控制传递回主线程,以此类推,切换的原因是:
•主线程执行一个慢速系统调用,如read或sleep •被系统的间隔计时器中断
-
线程和进程的区别:
•线程的上下文切换比进程快得多 •组织形式: •进程:严格的父子层次 •线程:一个进程相关线程组成对等(线程)池,和其他进程的线程独立开来。一个线程可以杀死它的任意对等线程,或者等待他的任意对等线程终止。
Posix线程
-
Posix线程是C程序中处理线程的一个标准接口。基本用法是:
•线程的代码和本地数据被封装在一个线程例程中 •每个线程例程都以一个通用指针为输入,并返回一个通用指针。
创建线程
-
创建线程:pthread_create函数,返回时参数tid包含新创建线程的ID
-
查看线程ID:pthread_self函数,返回调用者的线程ID(TID)
终止线程
-
终止线程的几个方式:
•隐式终止:顶层的线程例程返回 •显示终止:调用pthread_exit函数 *如果主线程调用,会先等待所有其他对等线程终止,再终止主线程和整个进程,返回值为pthread_return •某个对等线程调用Unix的exit函数,会终止进程与其相关线程 •另一个对等线程通过以当前线程ID作为参数调用pthread_cancle来终止当前线程
回收已终止线程的资源
-
pthread_join函数等待其他线程终止
-
这个函数会阻塞,知道线程tid终止,将线程例程返回的(void*)指针赋值为thread_return指向的位置,然后回收已终止线程占用的所有存储器资源
分离线程
-
在任何一个时间点上,线程是可结合的,或是分离的。
-
可结合的线程
•能够被其他线程收回其资源和杀死 •被收回钱,它的存储器资源没有被释放 •每个可结合线程要么被其他线程显式的收回,要么通过调用pthread_detach函数被分离
-
分离的线程
•不能被其他线程回收或杀死 •存储器资源在它终止时由系统自动释放
-
pthread_detach函数可以分离可结合线程tid。
-
线程能够通过以pthread_self()为参数的pthread_detach调用来分离他们自己。
-
每个对等线程都应该在他开始处理请求之前分离他自身,以使得系统能在它终止后回收它的存储器资源。
初始化线程
-
pthread_once函数允许你初始化与线程例程相关的状态,总是返回0.
一个基于线程的并发服务器
-
调用pthread_create时,用传递指针的方法将已连接描述符传递给对等进程
-
避免存储器泄露,必须分离每个线程,使它终止时它的存储器资源能被收回。
多线程程序中的共享变量
-
一个变量是共享的,当且仅当多个线程引用这个变量的某个实例
线程存储器模型
-
寄存器从不共享,虚拟存储器总是共享的
将变量映射到存储器
-
共享变量
-
变量v是共享的——当且仅当它的一个实例被一个以上的线程引用
用信号量同步线程
-
一般而言,没有办法预测操作系统是否将为你的线程选择一个正确的顺序。
进度图
-
进度图是将n个并发线程的执行模型化为一条n维笛卡尔空间中的轨迹线,原点对应于没有任何线程完成一条指令的初始状态。
-
当n=2时,状态比较简单,是比较熟悉的二维坐标图,横纵坐标各代表一个线程,而转换被表示为有向边
-
转换规则:
•合法的转换是向右或者向上,即某一个线程中的一条指令完成 •两条指令不能在同一时刻完成,即不允许出现对角线 •程序不能反向运行,即不能出现向下或向左
而一个程序的执行历史被模型化为状态空间中的一条轨迹线。
-
线程循环代码的分解:
•H:在循环头部的指令块 •L:加载共享变量cnt到线程i中寄存器%eax的指令。 •U:更新(增加)%eax的指令 •S:将%eax的更新值存回到共享变量cnt的指令 •T:循环尾部的指令块
-
几个概念:
•临界区:对于线程i,操作共享变量cnt内容的指令L,U,S构成了一个关于共享变量cnt的临界区。 •不安全区:两个临界区的交集形成的状态 •安全轨迹线:绕开不安全区的轨迹线
信号量
-
信号量实现互斥的基本原理
•两个或多个进程通过传递信号进行合作,可以迫使进程在某个位置暂时停止执行(阻塞等待),直到它收到一个可以“向前推进”的信号(被唤醒); •将实现信号灯作用的变量称为信号量,常定义为记录型变量s,其一个域为整型,另一个域为队列,其元素为等待该信号量的阻塞进程(FIFO)。 •信号量定义: type semaphore=record count: integer; queue: list of process end; var s:semaphore;
-
定义对信号量的两个原子操作——P和V
P(wait) wait(s) s.count :=s.count-1; if s.count<0 then begin 进程阻塞; 进程进入s.queue队列; end; V(signal) signal(s) s.count :=s.count+1; if s.count ≤0 then begin 唤醒队首进程; 将进程从s.queue阻塞队列中移出; end;
需要注意的是,每个信号量在使用前必须初始化。
####使用信号量来实现互斥
-
基本思想是将每个共享变量(或者一组相关的共享变量)与一个信号量s(初始为1)联系起来,然后用P和V操作将相应的临界区包围起来。
-
几个概念
•二元信号量:用这种方式来保护共享变量的信号量叫做二元信号量,取值总是0或者1. •互斥锁:以提供互斥为目的的二元信号量 •加锁:对一个互斥锁执行P操作 •解锁;对一个互斥锁执行V操作 •计数信号量:被用作一组可用资源的计数器的信号量 •禁止区:由于信号量的不变性,没有实际可能的轨迹能够包含禁止区中的状态。
利用信号量来调度共享资源
-
信号量有两个作用:实现互斥;调度共享资源
-
信号量分为:互斥信号量和资源信号量。
互斥信号量用于申请或释放资源的使用权,常初始化为1; 资源信号量用于申请或归还资源,可以初始化为大于1的正整数,表示系统中某类资源的可用个数。
-
常见问题有生产者-消费者问题,和读者-写者问题
其他并发问题
-
一个线程是安全的,当且仅当被多个并发线程反复的调用时,它会一直产生正确的结果。
-
四个不相交的线程不安全函数类以及应对措施:
•不保护共享变量的函数——用P和V这样的同步操作保护共享变量 •保持跨越多个调用的状态的函数——重写,不用任何static数据。 •返回指向静态变量的指针的函数——①重写;②使用加锁-拷贝技术。 •调用线程不安全函数的函数——参考之前三种
可重入性
-
当它们被多个线程调用时,不会引用任何共享数据。
-
显式可重入的:所有函数参数都是传值传递,没有指针,并且所有的数据引用都是本地的自动栈变量,没有引用静态或全剧变量。
-
隐式可重入的:调用线程小心的传递指向非共享数据的指针。
在线程化的程序中使用已存在的库函数
-
一句话,就是使用线程不安全函数的可重入版本,名字以_r为后缀结尾。
竞争
-
竞争发生的原因:一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的x点。也就是说,程序员假定线程会按照某种特殊的轨迹穿过执行状态空间,忘了一条准则规定:线程化的程序必须对任何可行的轨迹线都正确工作。
-
消除方法:动态的为每个整数ID分配一个独立的块,并且传递给线程例程一个指向这个块的指针
死锁
-
一组线程被阻塞了,等待一个永远也不会为真的条件。
代码实践过程记录
关于countwithmutex.c
-
首次编译时按照之前的方法编译,报错。根据错误提示,发现pthread库不是linux系统默认的库,因此pthread_creat创建线程时,在编译中要加上-lpthread参数。修正后顺利编译。
-
代码中涉及到的函数:
pthread_creat:创建线程,若成功则返回0,若失败则返回出错编号。第一个参数为指向线程标识符的指针,创建成功时指向的内存单元被设置为新创建线程的线程ID;第二个参数设置线程属性;第三个参数是线程运行函数的起始地址;最后一个参数是运行函数的参数 pthread_join:用来等待一个线程的结束。当函数返回时,被等待线程的资源被收回。 pthread_mutex_lock:线程调用该函数让互斥锁上锁。成功锁定时返回0,其他任何返回值都表示出现了错误。 pthread_mutex_unlock:与pthread_mutex_lock成对存在。释放互斥锁。
-
程序首先定义了一个宏
PTHREAD_MUTEX_INITIALIZER
来静态初始化互斥锁。先创建tidA
线程后运行doit函数,利用互斥锁锁定资源,进行计数,执行完毕后解锁。后创建tidB
,与tidA
交替执行。由于定义的NLOOP值为5000,所以程序最后的输出值为10000.程序的最后还需要分别回收tidA
和tidB
的资源。
关于count.c
- 这个代码用于与
countwithmutex.c
进行对比,差别在于本代码doit函数的for循环中没有引入互斥锁,只进行了单纯的计数,创建两个线程共享同一变量都实现加一操作。运行结果如下。
关于condvar.c
-
这个代码演示的是生产者生产和消费者消费交替进行的过程。是线程间同步的一种情况。
-
主函数中用
srand(time(NULL))
设置当前的时间值为种子,在后面的producer和consumer函数中调用rand()
函数产生随机数。 -
将主函数做如下修改后,发现生产和消费的速率比原来慢了一倍左右,因此也可以知道,通过增加或减少创建的线程数量能够影响程序输出的速率。这也侧面反应出了互斥锁在程序中所起的作用。
关于cp_t.c
-
mmap函数
`void* mmap(void* start,size_t length,int prot,int flags,int fd,off_t offset);`
将一个文件或者其他对象映射进内存。文件被映射到多个页上,如果文件的大小不是所有页的大小之和,最后一个页不被使用的空间将会清零。mmap在用户空间映射调用系统中作用很大。
-
成功执行时,mmap()返回被映射区的指针,munmap()返回0.失败时,mmap()返回MAP_FAILED,munmap返回-1.
-
lseek函数
off_t lseek(int fd,off_t offset,int whence);
fd表示要操作的文件描述符,offset是相对于whence(基准)的偏移量,whence可以是SEEK_SET(文件指针开始),SEEK_CUR(文件指针当前位置),SEEK_END(文件指针尾)
- lseek主要作用是移动文件读写指针,返回文件读写指针距文件开头的字节大小,若出错则返回-1.
- 运行如下
关于createthread.c
-
程序主要演示了创建线程函数pthread_create()函数的使用,用来打印进程和线程的ID
-
主函数中先利用pthread_create()函数创建一个线程,接着调用printids函数(打印标识符的函数)打印主线程号,最后线程函数thr_fn中打印出新建的线程号。
关于sieve.c
-
首次编译时出现错误
-
按照错误提示发现是因为没有连接数学库引发的错误,所以在编译时加上
-lm
,可以成功编译,运行结果提示了段错误,还不知道怎么解决这个问题。
关于semphore.c
-
sem_init函数
sem_init(sem_t *sem, int pshared, umsigned int value);
函数初始化一个定位在sem的匿名信号量;pshared参数为0指明信号量是由进程内线程共享,若为非0值则信号量在进程之间共享;value参数指定信号量的初始值。
- sem_init()成功时返回0;错误时返回-1,并把errno设置为合适的值。
- sem_destroy()函数用于销毁由sem指向的匿名信号量。只有通过sem_init()初始化的信号量才应该使用该函数销毁。函数成功时返回0,错误时返回-1,并把errno设置为合适的值。
- 这个函数和之前的condvar.c一样都是展示生产者和消费者交替工作的过程。区别是本程序实现生产或消费的过程是利用
sem_wait()
和sem_post()
,它们的作用分别是从信号量的值减去一个“1”和从信号量的值加上一个“1”
关于share.c
- 代码运行结果如下
关于threadexit.c
- 运行如下
关于hello_multi.c
-
程序中的print_msg()函数中:在
printf
后的fflush(stdout);
说明要立刻将要输出的内容输出,每输出一次停1秒,并循环5次。
-
若想要使程序输出像预期的打印出5个完整的helloworld,只需要将线程t1和t2的位置互换,修改代码如下
-
修改后代码运行如下
关于hello_multi1.c
- 运行结果只输出hello99
关于hello_single.c
- 根据代码,先单独执行
print_msg("hello");
——输出5个hello,后输出5个带换行的world
关于incprint.c
- 由于定义中NUM=5,所以输出的count为1——5
关于twordcount.c
-
twordcount1.c运行如下
-
twordcount2.c运行如下
-
twordcount3.c运行如下
-
twordcount4.c运行如下
代码托管情况
代码托管链接
代码行数统计
其他(感悟、思考等,可选)
- 本周的学习我先运行了老师给的代码,之后才进行了课本内容的学习。在运行代码的过程中,由于程序中调用的一些函数都是比较生疏的,需要一个一个的查每个参数的含义和函数的返回值。这个过程耗费了大量的时间。虽然方法比较笨,但是收获很大。
- 在自己第一次读代码的时候,只能根据程序运行的结果,大致的猜测出每一句代码的含义,以此推测出其他的代码应该会有怎样的运行结果。后来在看课本的时候总是会有恍然大悟的感觉,在运行代码后再学习课本内容,更能系统地理解知识点。比如看到pthread_create函数时,一开始我只知道这个函数会创建一个名为它的第一个参数的线程,而后我就应该跳到名为它的第三个参数的函数中继续执行代码;在看到课本后,我才知道这个过程叫做“主线程创建一个对等线程”,第一个参数为对等线程的名称,而pthread_join是在等待对等线程的终止。
学习进度条
代码行数(新增/累积) | 博客量(新增/累积) | 学习时间(新增/累积) | 重要成长 | |
---|---|---|---|---|
目标 | 5000行 | 30篇 | 400小时 | |
第零周 | 0/0 | 1/1 | 5/5 | 使用虚拟机安装linux系统,安装ubuntu |
第一周 | 100/100 | 1/2 | 20/25 | 掌握核心的linux命令,了解了linux操作系统 |
第二周 | 76/176 | 1/3 | 30/55 | 学会了虚拟机上的C编程 |
第三周 | 214/390 | 1/4 | 20/75 | 初步学习计算机中各种数的表示和运算 |
第五周 | 138/528 | 1/5 | 25/100 | 通过学习汇编,了解逆向的思想应用 |
第六周 | 150/678 | 1/6 | 30/130 | 安装了Y86处理器,了解了ISA抽象 |
第七周 | 100/778 | 1/7 | 20/150 | 理解了局部性原理和缓存思想在存储层次结构中的应用 |
第八周 | 0/778 | 2/9 | 20/170 | 对前七周的内容进行了查缺补漏 |
第九周 | 77/855 | 2/11 | 25/195 | 学习了Unix I/O并且了解了Unix I/O的使用情况 |
第十周 | 514/1369 | 2/13 | 20/215 | 实践了常用指令的代码,加深了对指令的理解 |
第十一周 | 1854/3223 | 2/15 | 30/245 | 理解进程和并发,了解异常及其种类 |
第十二周 | 0/3223 | 2/17 | 25/270 | 复习了前几周的知识,深入理解老师给的代码 |
第十三周 | 1005/4228 | 1/18 | 35/305 | 掌握了并发的方式,线程控制及相关系统调用 |