Linux0.12任務調度、休眠與喚醒
Linux是一個多用戶多任務的操作系統,其中多用戶,是指多個用戶可以在同一時間使用計算機系統;多任務,是指Linux可以在同一時間內運行多個應用程序,每個正在執行的應用程序被稱為一個任務。
但我們知道單核CPU在某一時刻只能執行一個任務,所以Linux將CPU的時間分片,時間片很短大概幾十到上百毫秒,調度器輪流分配給各個任務使用,因此形成多任務"同時運行"的錯覺。當任務執行時,即占用CPU,其時間片會遞減,OS會在當前任務的時間片用完時,切換任務,讓CPU去執行其他任務(Linux是任務搶占調度機制)。
所以怎么去衡量和維護這些CPU的時間片?Linux是事先定義的節拍率,來處理時間中斷,并使用全局變量Jiffies記錄了開機以來的節拍數,即每發生一次時間中斷,Jiffies的值就加1。
進程調度
timer_interrupt
還記得我們在任務調度初始化sched_init中費了很大功夫來初始化8253定時器,經過設置,它會每10毫秒,產生一次時間中斷信號,通知CPU來調用對應的中斷服務程序timer_interrupt,其中斷號0x20。
在Linux0.12中,進程調度的核心驅動動力,來源于時間中斷,定時器每10毫秒,就產生1次時間中斷信號,來驅動系統進程調度。
下圖為主要流程:
圖片
我們先來看一下timer_interrupt的源碼:
// /kernel/sched.c
void sched_init(void)
{
...
outb_p(0x36,0x43); /* binary, mode 3, LSB/MSB, ch 0 */
outb_p(LATCH & 0xff , 0x40); /* LSB */
outb(LATCH >> 8 , 0x40); /* MSB */
set_intr_gate(0x20,&timer_interrupt); !
...
}
// /kernel/sys_call.s
....
.align 2
_timer_interrupt: //時鐘中斷處理程序
push %ds # save ds,es and put kernel data space
push %es # into them. %fs is used by _system_call
push %fs # # 保存ds、es并讓其指向內核數據段。fs將用于system_call
pushl $-1 # 這里填-1,表明不是系統調用
//下面我們保存寄存器eax、ecx和edx。這是因為gcc編譯器在調用函數時不會保存它們。
//這里也保存了ebx寄存器,會后面ret_from_sys_call中會用到它。
pushl %edx # we save %eax,%ecx,%edx as gcc doesn't
pushl %ecx # save those across function calls. %ebx
pushl %ebx # is saved as we use that in ret_sys_call
pushl %eax
movl $0x10,%eax # ds,es置為指向內核數據段
mov %ax,%ds
mov %ax,%es
movl $0x17,%eax # fs置為指向局部數據段(程序的數據段)
mov %ax,%fs
incl _jiffies #系統啟動后的時鐘滴答值+1
// 由于初始化中斷控制芯片時沒有采用自動EOI,所以這里需要發指令結束該硬件中斷
movb $0x20,%al # EOI to interrupt controller #1
outb %al,$0x20
// 下面從堆棧中取出執行系統調用代碼的選擇符(CS段寄存器值)中的當前特權級別(0或3)并壓入
// 堆棧,作為do_timer的參數
movl CS(%esp),%eax
andl $3,%eax # %eax is CPL (0 or 3, 0=supervisor) 獲取當前特權級別
pushl %eax
//do_timer()函數執行任務切換、計時等
call _do_timer # 'do_timer(long CPL)' does everything from
addl $4,%esp # task switching to accounting ...
jmp ret_from_sys_call
注意這里pushl $-1,這里把-1壓入棧中,表明不是系統調用。其中incl _jiffies表示jiffies值加1,jiffies則記錄著,系統開機之后的時鐘滴答值;另一個核心函數_do_timer,用來執行任務切換、計時等功能。
do_timer
我們接著看下do_timer的源碼:
// /kernel/sched.c
//參數cpl是當前特權級0或3,它是時鐘中斷發生時正被執行的代碼選擇符中的特權級。
// cpl=0時表示中斷發生時正在執行內核代碼;cpl=3時表示中斷發生時正在執行用戶代碼。
void do_timer(long cpl)
{
static int blanked = 0;
//首先判斷是否需要執行黑屏(blankout)操作
if (blankcount || !blankinterval) {
if (blanked)
unblank_screen();// 屏幕恢復
if (blankcount)
blankcount--;
blanked = 0;
} else if (!blanked) {
blank_screen();// 屏幕黑屏
blanked = 1;
}
// 接著處理硬盤操作超時問題。如果硬盤超時計數遞減之后為0,則進行硬盤訪問超時處理
if (hd_timeout)
if (!--hd_timeout)
hd_times_out();
//如果發聲計數次數到,則關閉發聲。(向0x61口發送命令,復位位0和1。位0控制8253計數器2的工作,位1控制揚聲器)
if (beepcount)
if (!--beepcount)
sysbeepstop();
// 如果當前特權級(cpl)為0(最高,表示是內核程序在工作),則將內核代碼運行時間stime遞增
if (cpl)
current->utime++;
else
current->stime++;
//如果有定時器存在,則將鏈表第1個定時器的值減1。如果已等于0,則調用相應的處理程序,
// 并將該處理程序指針置為空。然后去掉該項定時器-和軟盤有關
if (next_timer) { // 定時器鏈表的頭指針
next_timer->jiffies--;
while (next_timer && next_timer->jiffies <= 0){
void (*fn)(void);//插入了一個函數指針定義,利用函數指針臨時保存當前定時器的處理函數
fn = next_timer->fn;
next_timer->fn = NULL;
next_timer = next_timer->next;
(fn)(); //調用定時處理函數
}
}
//如果當前軟盤控制器FDC的數字輸出寄存器DOR中馬達啟動位有置位的,則執行軟盤定時程序
if (current_DOR & 0xf0)
do_floppy_timer();
//如果當前進程時間片不為0,則退出繼續執行當前進程。否則置當前任務運行計數值為0。
if ((--current->counter)>0) return;
current->counter=0;
// 如果當前特權級表示發生中斷時正在內核態運行,則返回(內核任務不可被搶占)
if (!cpl) return;
schedule();//執行調度函數
}
do_timer中與屏幕、硬盤處理、發生器處理、軟盤處理,我們暫時忽略。其中current全局變量,表示當前任務指針,永遠指向當前的任務。當初始化的時候struct task_struct *current = &(init_task.task);,current是指向0號進程的。
current->counter表示當前進程的運行時間片,用來計時的,在Linux0.12中每經過一次時鐘中斷(10ms), counter就會減去1。
如果當前進程的運行時間片大于0,時間片沒用完,就直接退出該函數,繼續執行當前進程;如果時間片用完了,就重置為0,且當前程序運行在用戶態,去執行任務調度函數(任務切換),這就是典型的時間片輪轉策略。
其中在執行任務調度之前,還會判斷當前任務的特權級,如果當前特權級如果表示發生中斷時正在內核態運行,哪怕其時間片用完了,也直接返回不進行任務切換,來表示內核態任務不可被搶占。
schedule
我們接著看schedule函數的源碼:
//kernel/sched.c
void schedule(void) //調度程序
{
int i,next,c;
struct task_struct ** p; // 任務結構指針的指針
/* check alarm, wake up any interruptible tasks that have got a signal */
//檢測alarm(進程的報警定時值),喚醒任何已得到信號的可中斷任務
for(p = &LAST_TASK ; p > &FIRST_TASK ; --p) // 從任務數組中最后一個任務開始循環檢測alarm
if (*p) { //在循環時跳過空指針項, 即如果任務數組中有任務
//當前任務超時,則重置當前任務超時時間
if ((*p)->timeout && (*p)->timeout < jiffies) {
(*p)->timeout = 0;
//如果任務處于可中斷睡眠狀態TASK_INTERRUPTIBLE下
if ((*p)->state == TASK_INTERRUPTIBLE)
(*p)->state = TASK_RUNNING;//將其置為就緒狀態(TASK_RUNNING)
}
//如果任務的alarm值超時則向任務發送SIGALARM信號
if ((*p)->alarm && (*p)->alarm < jiffies) {
(*p)->signal |= (1<<(SIGALRM-1));
(*p)->alarm = 0; //重置任務alarm
}
// 如果當前任務中除了阻塞信號還有其他信號,并且該任務處于可中斷狀態
if (((*p)->signal & ~(_BLOCKABLE & (*p)->blocked)) &&
(*p)->state==TASK_INTERRUPTIBLE)
(*p)->state=TASK_RUNNING; //則置任務為就緒狀態
}
/* this is the scheduler proper: */
//下面是是調度程序的核心部分,簡短高效
while (1) {
c = -1;
next = 0;
i = NR_TASKS;//當前任務數組長度
p = &task[NR_TASKS];
while (--i) {//從任務數組的最后一個任務開始循環處理,并跳過不含任務的數組槽
if (!*--p)
continue;
// 如果任務為運行態,就循環找出剩余時間片最大的那個任務
if ((*p)->state == TASK_RUNNING && (*p)->counter > c)
c = (*p)->counter, next = i;
}
// 如果比較得出的結果不為0,則結束循環,執行switch_to
if (c) break;
// 如果比較結果為0,則重新循環任務數組
for(p = &LAST_TASK ; p > &FIRST_TASK ; --p)
if (*p) // 判斷任務數組值不為空
(*p)->counter = ((*p)->counter >> 1) +
(*p)->priority;//counter 值的計算方式為 counter = counter/2 + priority
//回到while(1)
}
//任務切換
switch_to(next);
}
schedule任務調度函數,非常簡短但很優雅, Linux0.12這里采用了基于優先級排隊的調度策略 ,主要是在循環中找到系統中處于就緒態的且時間片最大的任務,進行調度。
退出循環并執行任務切換,主要有2種情況:
- 一種是找到處于就緒態的且時間片最大的任務。
- 另一種就是系統中沒有一個可運行的任務存在(c=-1,next=0);其他情況則重新循環任務數組,更新任務的運行時間值counter = counter/2 + priority,繼續進行循環。
父子進程的調度的順序是由調度器決定的,與所謂進程的創建順序無關。另外我們可以發現隨著循環往后,哪些任務的優先級越高,分配到的時間片就會越大,即優先級高的任務優先運行。
switch_to
我們再來看下switch_to源碼,又是內聯匯編寫法:
// /include/linux/sched.h
#define switch_to(n) {\
struct {long a,b;} __tmp; \
__asm__("cmpl %%ecx,_current\n\t" \ // 比較n是否是當前任務
"je 1f\n\t" \ // 如果是就什么都不作
"movw %%dx,%1\n\t" \ // 將新任務的16位選擇符存入__tmp.b中
"xchgl %%ecx,_current\n\t" \ // current = task[n];ecx = 被切換出的任務
"ljmp %0\n\t" \ // 長跳轉到__tmp處,此時會自動發生任務切換!!!!
"cmpl %%ecx,_last_task_used_math\n\t" \ // 判斷是否使用了協處理器
"jne 1f\n\t" \ // 沒有就退出
"clts\n" \ // 原任務使用過則清理cr0中的任務
"1:" \
::"m" (*&__tmp.a),"m" (*&__tmp.b), \
"d" (_TSS(n)),"c" ((long) task[n])); \ //_TSS(n)傳入給dx,任務號n對應的任務傳入給ecx
}
switch_to主要功能是,切換當前任務到任務n,也就是schedule函數中的next,這個函數還是比較復雜的,我們來講解一下其實現任務切換的流程:
- 定義8字節結構體__tmp,只用到了其中的六個字節,來作為后面ljmp的操作數。
- je 1f首先比較n是否是當前任務current,如果是就什么都不做,直接跳轉到標號1處。
- movw %%dx,%1新任務TSS選擇符(16位)賦值給第一個參數__tmp.b,也就是__tmp.b存放的是進程n的tss段選擇符。
- xchgl %%ecx,_current交換兩個操作數的值,等同于current = task[n] ,ecx = 被切換出去的任務(即原任務)。
- ljmp %0,這步非常重要,ljmp跳轉指令表示跳轉到進程n的TSS描述符處(__tmp.b存放的是進程n的tss段選擇符,_tmp.a存放的是偏移地址0)。當ljmp識別描述符為TSS時,會告訴CPU進行任務切換,CPU會自動將當前任務的現場信息保存到當前任務私有的TSS中,然后將進程n的TSS中信息保存到對應的寄存器中,CPU會根據這些寄存器的值來跳轉到新的進程的代碼段執行任務。
- cmpl %%ecx,_last_task_used_math判斷是否使用了協處理器,需要注意的是,只有當任務切換回來后才會繼續執行該行,因為在切換前,EIP指向引起任務切換指令ljmp的下一條指令,當保存進程現場信息時,EIP的值夜會保存到原任務的TSS中;直到當任務切換回來后,原任務的TSS中進程現場信息,重新恢復到對應的寄存器中,CPU繼續從EIP指向的指令開始執行任務。
- jne 1f、clts,如果使用了協處理器,就復位控制寄存器cr0中的TS標志,不然就跳轉到標號1處直接退出。
圖片
當此時完成任務切換后,會返回到時間處理函數_timer_interrupt中,繼續執行ret_from_sys_call,主要是參與信號處理,我們本文就不再細講了,后面有機會再詳細聊聊。
休眠與喚醒
我們接著趁熱打鐵,了解一下進程的休眠與喚醒。在linux0.12中進程的休眠,主要是通過sleep_on函數來實現的,它是一個關鍵的調度函數,用于將當前進程置于等待狀態,直到某個資源可用。
//不可中斷等待狀態 // /kernel/sched.c
static inline void __sleep_on(struct task_struct **p, int state)
{
struct task_struct *tmp;
if (!p) // 若指針無效,則退出
return;
if (current == &(init_task.task))//如果當前任務是任務 0,則恐慌
panic("task[0] trying to sleep");
//讓 tmp 指向已經在等待隊列上的任務(如果有的話),例如 inode->i_wait,并且將睡眠隊列頭
// 的指針指向當前任務。這樣就把當前任務插入到 *p 的等待隊列中。然后將當前任務置為指定
// 的等待狀態,并執行重新調度
tmp = *p;
*p = current;
current->state = state;
repeat: schedule();
//只有當這個等待任務被喚醒時,程序才又會從這里繼續執行。表示進程已被明確地喚醒并執行
//如果隊列中還有等待的任務,并且隊列頭指針 *p 所指向的任務不是當前任務,則說明在本任務
// 插入隊列后還有任務進入隊列,于是我們應該也要喚醒這些后續進入隊列的任務,因此這里將隊
// 列頭所指任務先置為就緒狀態,而自己則置為不可中斷等待狀態,即要等待這些后續進入隊列的
// 任務被喚醒后才用 wake_up()喚醒本任務。然后跳轉至 repeat 標號處重新執行調度函數
if (*p && *p != current) {
(**p).state = 0;//0是運行態
current->state = TASK_UNINTERRUPTIBLE;//TASK_UNINTERRUPTIBLE,2,不可中斷等待狀態
goto repeat;
}
// 執行到這里,說明任務被真正被喚醒執行。此時等待隊列頭指針應該指向本任務。若它為空,
// 則表明調度有問題,
if (!*p)
printk("Warning: *P = NULL\n\r");
if (*p = tmp) //最后我們讓頭指針指向在我們的前面進入隊列的任務//(*p = tmp)
tmp->state=0;
}
//把當前任務置為不可中斷的等待狀態(TASK_UNINTERRUPTIBLE);需要利用wake_up()函數來明確喚醒,即使有信號也無法喚醒
void sleep_on(struct task_struct **p)
{
__sleep_on(p,TASK_UNINTERRUPTIBLE);//同時傳入了當前任務指針p
}
// 將當前任務置為可中斷的等待狀態(TASK_INTERRUPTIBLE);可以通過信號、任務超時等手段喚醒
void interruptible_sleep_on(struct task_struct **p)
{
__sleep_on(p,TASK_INTERRUPTIBLE);
}
當多個進程在調用sleep_on函數時,會隱式構建一個等待隊列,通過每個進程在內核棧中的臨時變量tmp,形成了"鏈表"結構,它并不是一個真正的鏈表。每個調用sleep_on的進程會被插入到等待隊列的頭部。隨著sleep_on函數的執行,使得tmp指針指向隊列中隊列頭指針指向的原等待任務,而隊列頭指針p則指向本次新加入的等待任務。
這里還是比較特殊的,大家可以參考下面筆者吐血畫的一張等待隊列示意圖:
圖片
sleep_on函數將指定的進程進行休眠,其實就是將進程的狀態設置為可中斷等待狀態(TASK_INTERRUPTIBLE 1)或不可中斷等待狀態(TASK_UNINTERRUPTIBLE 2),那么反過來喚醒的話,就直接將進程的狀態重新設置為TASK_RUNNING 0 運行態
// sched.h
#define TASK_RUNNING 0 // 運行態
#define TASK_INTERRUPTIBLE 1 // 可中斷等待狀態
#define TASK_UNINTERRUPTIBLE 2 // 不可中斷等待狀態
#define TASK_ZOMBIE 3 // 僵死
#define TASK_STOPPED 4 // 停止狀態
sleep_on函數在將當前進程置于等待狀態后,它還會調用schedule()函數,讓CPU切換到其他可運行的進程去執行。
另外我們還需知道這里可中斷等待狀態和不可中斷等待狀態的區別,可中斷的等待狀態的進程可以被信號或其他中斷方式手段喚醒;而不可中斷的等待狀態,必須通過wake_up函數來顯式喚醒,即使有信號也無法喚醒!
如果是操作系統的0號進程的話,當其嘗試調用sleep_on函數時,會進行特殊處理,0號進程不允許進入睡眠狀態,系統會觸發一個恐慌panic。
接著再來看看wake_up喚醒函數:
void wake_up(struct task_struct **p)
{
if (p && *p) {
if ((**p).state == TASK_STOPPED)// 處于停止狀態
printk("wake_up: TASK_STOPPED");
if ((**p).state == TASK_ZOMBIE) // 處于僵死狀態
printk("wake_up: TASK_ZOMBIE");
(**p).state=0;//設置為就緒狀態 TASK_RUNNING
}
}
這個函數還是非常簡單的,核心就是將進程的狀態再設置為就緒狀態(0)。需要注意的是, 調用該函數喚醒的是最后進入等待隊列的任務,即等待隊列中的隊頭任務。被喚醒的進程會重新進入調度隊列task[NR_TASKS],等待再次被調度執行。
參考資料:
https://elixir.bootlin.com/linux/0.12/source/kernel/sched.c
《Linux內核完全注釋5.0》
《Understanding Linux Kernel and its Impact on System Efficiency》