linux 进程学习笔记-进程调度

在分时系统中，系统将CPU时间划分成无数个时间片（quantum）分配给不同的进程，一个时间片只执行一个进程，并且不停地切换，以让用户感觉到各个进程是在“同时运行”，这中间所需要的策略和算法便是进程调度。 

一个很好的例子是：假设目前系统只运行了两个进程，一个解压缩程序和一个文本编辑器。由于解压缩程序会大量地占用CPU而不是I/O设备（将解压后的文件写入磁盘），所以对解压缩程序而言CPU是其最大的影响因素，我们将这类程序归类为“CPU-Bound（CPU限制型）”。与之相对应的，文本编辑器对CPU的占用很少，其大多数时间时在等待用户输入，我们将其归类为“I/O-Bound（I/O限制型）”。为了让系统响应对用户更友好，Linux的设计者更倾向于调高I/O-Bound类型进程的优先级。如果现在是解压缩程序正在被CPU执行，而文本编辑器正在等待用户输入而处于休眠状态（TASK_INTERRUPTIBLE），当用户在文本编辑器中敲击键盘时，系统将产生一个中断（interrupt），文本编辑器进程将被唤醒，同时内核会意识到文本编辑器比解压缩进程具有更高的优先级，所以它会将解压缩进程的进程描述符（PCB）中的need_resched字段设成1，表示需要调度器（scheduler）重新调度。当中断处理完成以后，调度器会重新调度并选中文本编辑器进程进行任务切换（task switch， context switch），解压缩进程对CPU的拥有权被抢占（preempted，被抢占并不意味着被挂起，而事实上此时解压缩程序仍然处于TASK_RUNNING状态，表示“可执行”），进而执行文本编辑器程序以显示用户敲入的字符。当文本编辑器将此次击键处理完毕后，其将主动放弃CPU而再次进入休眠状态以等待用户的下次键入，调度程序将再次将解压缩进程选中并交给CPU执行。 

  

先看看PCB中和进程调度相关的几个字段： 

Ÿ struct list_head run_list; 

系统维护着一个可执行队列（runqueue），所有TASK_RUNNING状态的进程都会被记录在其中。在使用调度程序进行调度时，调度程序会在该队列中选取一个合适的进程来与当前进程进行切换。 

Ÿ long nice; 

nice值作用之一用于用户修正进程的优先级。增加nice值会降低进程的优先级，反之则升高优先级。另外一个作用是影响进程的时间片长度，nice值越小，时间片长度会增加，反之减少。（注：2.4以下的内核中priority字段被nice取代） 

nice值的范围是 -20 ~ 19 

Ÿ long counter; 

一个计数器，用于记录进程在当前时间片内还允许被执行的时间（单位tick,滴答）。counter的初始值就是该进程的时间片长度，当值为0时说明其时间片耗尽。只能等待下一个调度周期从新分配。 

Ÿ unsigned long rt_priority; 

进程可分为实时进程和非实时进程（普通进程），它们的优先级策略不一样，实时进程采用“静态优先级”的形式，让进程拥有一个不可变的优先级值，调度器永远不改变它。普通进程采用“动态优先级”的形式，其优先级值是在调度时通过一系列参数计算出来的。 

rt_priority表示实时进程的静态优先级，范围在1~99，如果是普通进程则该字段值为0 

Ÿ unsigned long policy; 

这就是常说的调度策略，实时进程和非实时进程（普通进程）分享CPU的方式是不一样的。实时进程采用CHED_FIFO与SCHED_RR实时调度策略，普通进程只有SCHED_OTHER分时调度策略。  

#define SCHED_OTHER             0 

分时调度策略，其采用优先级等形式，让CPU分配尽量公平。 

#define SCHED_FIFO               1 

First In First Out, 进程根据静态优先级进行排队，如果优先级相同的话，则谁先ready就调度谁。被调度的进程将一直占用CPU直到： 被高优先级进程抢占 或者 等待资源为休眠 或者 主动放弃CPU 

#define SCHED_RR                 2 

Round Robin（轮询），其和SCHED_FIFO很类似，但其会给进程分配时间片，时间片到则切换进程 

另外，在策略中有一个SCHED_YIELD位（#define SCHED_YIELD 0x10），该位被设定时则表示进程主动放弃CPU 

if (policy & SCHED_YIELD) 

//give up CPU 

Ÿ volatile long need_resched; 

该字段值用于指示是否请求激活调度程序重新进行调度。调度器的启动方式有“主动式”和“被动式”两种，need_resched字段用于被动式启动，稍候会提到。 

Ÿ struct mm_struct *mm; 

mm_struct数据结构是描述内存存储信息的数据结构,进程控制块task_struct中用mm指针指想mm_struct数据结构.也就是在进程的属性中通过mm指针来管理起对应的内存区. 

  

调度工作大部分是在schedule()函数中完成的，其会遍历可执行队列中的进程，并调用一个名为goodness()的函数来计算进程的权值（weight），权值大的优先级就高，优先级高的进程会被调度。 

计算进程p的权值： 

static inline int goodness(struct task_struct * p, int this_cpu, struct mm_struct *this_mm) 

{ 

         int weight; 




         /* 

          * weight为-1则表示没有其他进程就绪. 

          */ 

         weight = -1; 




/* 

          *如果p的策略SCHED_YIELD位被设置，则表示p主动放弃CPU 

          */ 

         if (p->policy & SCHED_YIELD) 

                 goto out; 




         /* 

          *普通进程. 

          */ 

         if (p->policy == SCHED_OTHER) { 

                 /* 

                  * 首先将该进程剩余的时间片赋值给weight 

                  */ 

                 weight = p->counter; 

                 if (!weight) 

                         goto out; 

                          

#ifdef CONFIG_SMP 

                 /* 

                  * 如果不是跨CPU调度的话，当前CPU中的一些缓存数据还可以使用 

 * 所以给非跨CPU调度的进程一定的“优惠”： 

* 权值增加一个常量值：PROC_CHANGE_PENALTY 

                  */ 

                 if (p->processor == this_cpu) 

                         weight += PROC_CHANGE_PENALTY; 

#endif 




                 /* 

 * 对于不需要切换内存的进程也给一定的优惠 权值+1 

 * 有两种情况不需要切换内存： 

 * 1. p和当前进程共享内存（比如同一进程内的线程：轻量级进程） 

 * 2. p是内核进程，没有mm属性 

*/ 

                 if (p->mm == this_mm || !p->mm) 

                         weight += 1; 




/* 

 * 让进程的nice值参与权值运算，由于nice值越小权值应该越大，并且nice 

 * 值的范围是-20~19所以用20-nice 

 */ 

                 weight += 20 - p->nice; 

                 goto out; 

         } 




         /* 

          * 实时进程的计算方式十分简单：直接用rt_priority字段。 

* 1000是为了让实时的权值大于任何普通进程 

          */ 

         weight = 1000 + p->rt_priority; 

out: 

         return weight; 

} 




调度器选定新的进程后，需要进行新进程和旧进程的切换工作（Context Switch），分为两个方面：切换内存（switch_mm）和切换cpu寄存器（switch_to） 

关于切换内存：内核空间的进程的mm属性为空没必要切换，这是因为内核进程是轻量级进程（线程），它们是共享内核空间的，对于两个普通的进程则调用switch_mm（）函数进行内存切换（至于如何切换，这里略过，我还不懂linux内存管理，以后更新） 

而switch_to方法，是一段汇编代码（看看就好）： 

#define switch_to(prev,next,last) do {           

  asm volatile("pushl %%esi
	"   

         "pushl %%edi
	"     

         "pushl %%ebp
	"  保存esi、edi、ebp寄存器 

         "movl %%esp,%0
	"  esp保存到prev->thread.esp中 

         "movl %3,%%esp
	"  从next->thread.esp恢复esp 

         "movl $1f,%1
	"   

   在prev->thread.eip中保存"1："的跳转地址， 

   当prev被再次切换到的时候将从那里开始执行 

         "pushl %4
	"     

      在栈上保存next->thread.eip，__switch_to()返回时将转到那里执行， 

    即进入next进程的上下文 

         "jmp __switch_to
"  跳转到__switch_to()，进一步处理(见下) 

         "1:	"         

         "popl %%ebp
	"     

         "popl %%edi
	"     

         "popl %%esi
	"    先恢复上次被切换走时保存的寄存器值， 

       再从switch_to()中返回。 

         :"=m" (prev->thread.esp),  \%0 

                      "=m" (prev->thread.eip),\%1 

          "=b" (last) ebx， 

因为进程切换后，恢复的栈上的prev信息不是刚被切换走的进程描述符， 

因此此处使用ebx寄存器传递该值给prev 

         :"m" (next->thread.esp),  \%3 

                       "m" (next->thread.eip),  \%4 

            "a" (prev), "d" (next),    eax,edx 

            "b" (prev));        ebx 

} while (0) 

  

启动调度器有两种方式：一是进程为等待核心事件而主动调用schedule()函数将自己挂起以让出CPU，这称为“主动式”；二是不直接调用schedule()函数，而是设置前面提到的need_resched字段，当进程由内核态返回到用户态时（内核2.6中，包括由用户态到内核态时），系统检查need_resched字段，如果其被设置，那么schedule函数将被调用，这称为“被动式”。
相关阅读:
memcached 细究（一）
centos文件/文件夹操作-检查磁盘、内存、cpu使用情况-vi操作命令
 判断php变量是否定义，是否为空，是否为真的一览表
 php 在函数前面加个@的作用
 apache Header set Cache-Control
windows上memecache添加多个端口命令
 Android 4.4KitKat AudioFlinger 流程分析
 Android 4.4KitKat Sound System
Android 4.4KitKat AudioTrack 流程分析
 Android Shell Cmd
原文地址：https://www.cnblogs.com/zendu/p/4990726.html