Linux系統的架構淺析
歷史
1991年,還在芬蘭赫爾辛基大學上學的Linus Torvalds在自己的Intel 386計算機上開發了屬于他自己的第一個程序,并利用Internet發布了他開發的源代碼,將其命名為Linux,從而創建了Linux操作系統,并在同年公開了Linux的代碼,從而開啟了一個偉大的時代。在之后的將近30年的時間里,越來越多的工程師投入到Linux,幫助不斷完善Linux的功能。現在的Linux系統架構憑借優秀的分層和模塊化的設計,融合了大量的設備和不同的物理架構。
寫這篇文章,也是對Linux系統的一個非常簡單的介紹,主要講解Linux的進程調度、內存管理、設備驅動、文件系統、網絡模塊。
Linux內核架構圖
上圖就是Linux內核的架構圖,從硬件層--->操作系統內核--->應用層,這套系統架構的設計應用于各類軟硬件結合的系統上,比如物聯網系統,單片機系統、機器人等領域。
進程調度
進程在Linux系統中稱為process或task。操作系統中進程的數據結構包含很多元素,諸如:地址空間、進程優先級、進程狀態、信號量、占用的文件等,往往用鏈表鏈接。
CPU在每個系統滴答(Tick)中斷產生的時候檢查就緒隊列里邊的進程(遍歷鏈表中的進程結構體),如有符合調度算法的新進程需要切換,保存當前運行的進程的信息(包括棧、地址等)后掛起當前進程,然后運行新的進程,這就是進程調度。
CPU調度的基本依據是進程的優先級。調度的終極目標是讓高優先級的進程能及時得到CPU的資源,低優先級的任務也能公平的分配到CPU資源。不過因為保存當前進程的信息所以進程的切換本身是有成本的,調度算法同樣需要考慮效率。
在早期Linux內核中,就是采用輪詢算法來實現的,內核在就緒的進程隊列中選擇高優先級的進程執行,每次運行相等時間,該算法簡單直觀,但仍然會導致一些低優先級的進程長時間不能執行。為了提高調度的公平性,在后來Linux內核(2.6)中,引入了CFS調度器算法。
CFS引入虛擬運行時間的概念,虛擬運行時間用task_struct->se.vruntime表示,通過它來記錄和度量進程應該獲得的CPU運行時間。在理想的調度情況下,任何時候所有的進程都應該有相同的task_struct->se.vruntime值。因為每個進程都是并發執行,沒有進程會超過理想狀態下應該占有的CPU時間。CFS選擇需要運行的進程的邏輯基于task_struct->se.vruntime值,它總是選擇task_struct->se.vruntime值最小的進程來運行(為了公平)。
CFS使用基于時間排序的紅黑樹來為將來進程的執行時間線。所有的進程按task_struct->se.vruntime關鍵字排序。CFS從樹中選擇最左邊的任務執行。隨著系統運行,執行過的進程會被放到樹的右側,逐步讓每個任務都有機會成為最左邊的進程,從而讓每個進程都能獲取CPU資源。
總的來說,CFS算法首先選一個進程,當進程切換時,該進程使用的CPU時間會加到該進程task_struct->se.vruntime里,當task_struct->se.vruntime的值逐漸增大到別的進程變成了紅黑樹最左邊的進程時,最左邊的進程被選中執行,當前的進程被搶占。
內存管理
內存,一種硬件設備,操作系統對其尋址,找到對應的內存單元,然后對其操作。CPU的字節長度決定了最大的可尋址空間,32位機器最大尋址空間是4G Bytes,64位機器最大尋址空間是2^64 Bytes。
最大尋址空間和物理內存大小無關,稱之為虛擬地址空間。Linux內核把虛擬地址空間分為內核空間和用戶空間。每個用戶進程的虛擬地址空間范圍是0~TASK_SIZE。從TASK_SIZE~2^32或2^64的區域保留給內核,不能被用戶進程訪問。
虛擬地址空間與物理內存的映射
絕大多數情況下,虛擬地址空間比實際物理內存大,操作系統需要考慮如何將實際可用的物理內存映射到虛擬地址空間。
Linux內核采用頁表(page table)將虛擬地址映射到物理地址。虛擬地址和進程使用的用戶&內核地址有關,物理地址用來尋址實際使用的內存。
示例圖
上圖所示,A和B進程的虛擬地址空間被分為大小相等的等份,稱為頁(page)。物理內存同樣被分割為大小相等的頁(page frame)。
進程A第1個內存頁映射到物理內存(RAM)的第4頁;進程B第1個內存頁映射到物理內存第5頁。進程A第5個內存頁和進程B第1個內存頁都映射到物理內存的第5頁(內核可決定哪些內存空間被不同進程共享)。頁表將虛擬地址空間映射到物理地址空間。
文件系統
Linux的核心理念:everything is file。Linux系統存在很多文件系統,比如EXT2,EXT3,EXT4,rootfs,proc等等,每一種文件系統都是獨立的,有自己的組織方式、操作方法。
為了支持不同的文件系統,內核在用戶態和文件系統之間包含了一層虛擬文件系統(Virtual File System)。大多數內核提供的函數都能通過VFS定義的接口來訪問。例如內核的子系統:字符設備、塊設備,管道,socket等。另外,用于操作字符和塊設備的文件是在/dev目錄下真實文件,當讀寫操作執行的時候,其會被對應的驅動程序創建。
VFS結構圖
Linux的虛擬文件系統四大對象:
1. super block(超級塊)
2. inode(節點)
3. dentry(目錄)
4. block(具體的數據塊)
super block
代表一個具體的已經安裝的文件系統,包含文件系統的類型、大小、狀態等等。
inode
代表一個具體的文件,在Linux文件管理中,一個文件除了自身的數據外,還有一個附屬信息,即文件的元數據(metadata),這個元數據用于記錄文件的許多信息比如文件大小、創建人、創建時間等,這個元數據就包含在inode中。
inode是文件從抽象--->具體的關鍵。inode存儲了一些指針,這些指針指向存儲設備的一些數據塊,文件的內容就存儲在這些數據塊中。Linux想打開一個文件時,只需要找到文件對應的inode,然后沿著指針,將所有的數據塊攢起來,就可以在內存中組成一個文件的數據了。
inode 結構
inode并不是組織文件的唯一方式,最簡單的組織文件的方式,是把文件依次順序的放入存儲設備,但如果有刪除操作的話,刪除造成的空余空間夾雜在正常文件之間,很難利用和管理;復雜方式可以用來鏈表來做,每個數據塊有個指針,指向屬于同一文件的下一個數據塊,這樣的好處是可以利用零散的空余空間,壞處是對文件的操作必須按照線性方式進行,如果隨機讀取就必須要遍歷鏈表,直到目標位置。由于這一遍歷不是在內存進行,所以速度很慢。
inode既可以充分利用空間,在內存占據空間不與存儲設備相關,解決了上面的問題。但inode也有自己的問題。每個inode能夠存儲的數據塊指針總數是固定的。如果一個文件需要的數據塊超過這一總數,inode需要額外的空間來存儲多出來的指針。
dentry
代表一個目錄項,是路徑的一部分,比如一個路徑/home/jackycao/hello.txt,那么目錄項就有home、jackycao、hello.txt。
block
代表具體的數據,一個文件由分散的多個block組成,組織的方式由inode來指向。
設備驅動
與外設的交互,說白了就是輸入(input)、操作(operate)、輸出(ouput)的操作。
內核需要完成三件事情:
1. 針對不同的設備類型實現不同的方法來尋址硬件。
2. 必須為用戶空間提供操作不同硬件設備的方法,且需要一個統一的機制來確保盡量有限的編程工作。
3. 讓用戶空間知道在內核中有哪些設備。
設備通信圖
內核訪問外設主要有兩種方式:I/O端口和I/O內存映射。具體不展開介紹了。
內核動態接收外設發來的請求(數據)主要通過兩種方式:輪詢和中斷。
輪詢:周期性的訪問查詢設備是否有數據,如果有,便獲取數據。這種方法比較浪費CPU資源。
中斷:核心思想是外設有請求時主動通知CPU,中斷的優先級最高,會中斷CPU的當前進程運行,每個CPU都提供了中斷線,每個中斷由唯一的中斷號識別,內核為每個應用的中斷提供一個中斷處理方法。當有數據已準備好可以給內核或者間接被一個應用程序使用的時候,外設出發一個中斷。使用中斷確保系統只有在外設需要處理器介入的時候才會通知CPU,提高了效率。
PS:塊和扇區的概念:塊是一個指定大小的字節序列,用于保存在內核和設備間傳輸的數據,塊的大小可以被設置,默認是4096 bytes,扇區是存儲設備操作的最小單元,默認是512 Bytes,塊是一段連續的扇區。
網絡
Linux的網絡子系統的模型基于ISO的OSI模型,Linux內核中會簡化相應層級。下圖為Linux使用的TCP/IP參考模型。
網絡模型
Host-to-Host層:相當于OSI模型的物理層和數據鏈路層,負責將數據從一個計算機傳輸到另一個計算機。在Linux內核的角度來看,這一層是通過網卡的設備驅動程序實現的。
Internet層:相當于OSI模型的網絡層,負責讓網絡中的計算機可以交換數據(這些計算機并不一定是直連的)。該層同時負責傳輸的包分成指定的大小,因為包在傳輸路徑上每個計算機支持的最大網絡包的大小不一樣,在傳輸時數據被分割成不同的包,在接收端再組合。該層為網絡中的計算機分配唯一的網絡地址。
Transport層:相當于OSI模型的傳輸層,負責讓兩個連接的計算機上運行的應用程序之間的數據傳輸。比如,兩臺計算機上的客戶端和服務端程序,通過端口號來識別通信的應用程序。
App層:相當于OSI模型的會話層、表示層、應用層,網絡中不同計算機的兩個應用程序建立連接后,這一層負責實際內容的傳輸。
Linux內核子系統的實現通過C代碼實現,每個層只能和它上下層通信。
Linux網絡分層圖