高級運維必看的操作系統內存管理解析
前言
內存管理是操作系統的一項核心功能。
從操作系統啟動到創建0號進程(也就是idle進程)的過程中,大部分執行的代碼都涉及到內存管理。
操作系統的內存管理大致可以分為以下幾個層次:
物理內存管理
物理內存指的是電腦中實際存在的內存容量,這個信息可以通過BIOS獲取。
在內存分頁后,物理內存的管理結構變成了一個數組,其中每個元素表示一個物理內存頁,每頁的大小為4096字節
如下圖:
圖片
在一個簡單的內核示例中,物理內存頁的管理結構可以僅包含一項:
atomic_t refs;
這表示物理內存頁的引用計數:如果計數為0,表示該頁空閑;若計數大于0,則表示該頁正在被使用,具體數值表示共享此頁的進程數量。
簡單的內核示例通常不支持SMP架構,因此自旋鎖(spinlock)并不需要。
然而,在對稱多處理器(SMP)系統中,由于全局數據結構可能會被多個CPU同時訪問,因此需要引入自旋鎖。
在這種情況下,物理內存頁的管理結構至少需要包含以下兩項:
atomic_t spinlock;
atomic_t refs;
自旋鎖的作用類似于應用程序中的互斥鎖(mutex),不同之處在于,當自旋鎖獲取失敗時,它會反復嘗試直到成功。
void spin_lock(atomic_t* lock)
{
while (spin_trylock(lock) == 0);
}
以上代碼展示了為自旋鎖加鎖的函數。while循環會不斷嘗試加鎖,直到成功;如果未成功,它將持續自旋嘗試,因此稱之為自旋鎖。
在SMP環境中,自旋鎖用于保護共享的數據結構:當一個CPU持有自旋鎖時,其他CPU無法訪問該共享數據。
對于單處理器系統,沒有必要使用自旋鎖,直接關閉中斷即可。
在單處理器環境中,關閉中斷可以防止內核的并發執行,從而避免對共享數據的競爭。
但是,在多處理器系統中,必須使用自旋鎖,因為關閉中斷只能影響當前CPU,而無法影響其他CPU;此時,自旋鎖用于保護共享數據。
物理內存的管理數組是最關鍵的全局共享數據。
當需要為某個進程分配內存時,判斷哪個內存頁空閑、哪個已被使用,都依賴于這個數組。
在加自旋鎖時,一定要先關閉中斷,因為如果在加鎖后、關閉中斷前,剛好有中斷發生,并在中斷處理函數中再次請求加同一個鎖,就會導致遞歸死鎖。
在Linux內核中,關閉中斷并加鎖的函數是:spin_lock_irqsave()。
分配物理內存頁的函數是:get_free_pages(),它可以分配1頁或連續多頁的內存。
如果分配多頁內存,起始地址需按頁數對齊。
虛擬內存管理
虛擬內存的管理是通過進程的頁表來實現的。
為了節約物理內存,當一個新進程創建時,它會與父進程共享同一套物理內存頁。
只有當新進程需要對某個內存頁進行寫操作時,系統才會為它創建一個新的物理內存頁副本,并取消該頁與父進程的共享,這個過程稱為寫時復制(Copy-On-Write)
圖片
寫時復制的過程可以描述為:
- 申請一個新的內存頁,
- 將舊內存頁的內容復制到新的內存頁中,
- 將新內存頁的地址填入子進程的頁表中,
- 將舊內存頁的引用計數減1。
因此,在新進程剛創建時,它的用戶空間并沒有專屬的物理內存頁。只有在需要寫操作時,系統才會通過寫時復制機制逐步分配內存頁,從而盡可能地保持物理內存的空閑狀態。
另一種保持物理內存盡量空閑的機制是“按需加載”:
- 當通過mmap映射一個文件時,操作系統不會立即為該文件分配內存或將其內容加載到內存中,
- 只有在進程實際讀取文件的某一部分時,操作系統才會分配物理內存頁,并將該部分內容從磁盤讀入內存。
這就是“寫時復制”和“按需加載”的過程:只有在真正需要時,Linux系統才會將物理內存分配給進程。
用戶態的內存函數
以上這些機制都是操作系統內核的一部分,應用程序的代碼無需關注這些細節。
應用程序分配內存的最底層操作通過brk()系統調用完成。
圖片
brk()是一個系統調用,用于修改應用程序數據段的末尾位置,以便分配或釋放應用程序的堆空間。
圖片
在C標準庫中,brk() 被封裝成了 sbrk() 和 brk() 兩個函數,以便于程序員使用:
- sbrk() 用于申請內存:void* sbrk(int increment);
- brk() 用于回收內存:int brk(void* addr);
實際上,Linux系統中只有一個 brk() 系統調用,它負責設置進程數據段的末尾,并將這個值返回給應用程序。
圖片
在Linux內核的頭文件中,brk() 系統調用的處理函數 sys_brk() 如圖所示。
如果想直接使用系統調用,可以通過 Linux 的 syscall() 函數來實現。該函數接受調用號和參數列表,能夠幫助區分實際的系統調用和C庫的封裝。syscall() 函數的聲明為:long syscall(long number, ...);,它的參數是可變的,最多支持6個參數,因為寄存器的數量有限。
基于 sbrk() 和 brk(),常用的內存管理函數 malloc() 和 free() 被封裝出來。malloc() 分配的內存塊可以按需釋放,不必按順序。而 brk() 和 sbrk() 分配的內存必須按順序釋放,因為它們會調整進程數據段的結尾。
數據段結尾(brk)之外的堆空間如果被使用,會導致段錯誤。因此,Linux man 手冊建議應用程序不要直接使用 sbrk() 和 brk() 來申請和釋放內存。
brk() 的作用僅僅是通知 Linux 內核哪個范圍的堆內存是可用的。實際的物理內存頁是在進程實際讀寫內存時由內核根據寫時復制和按需加載機制自動申請的,應用程序并不會感知到這些細節。
此外,Linux 還會將不常用的物理內存頁交換到磁盤上的交換分區(swap),以釋放更多內存。因此,當內存不足時,磁盤的讀寫頻率也會增加。