你真的理解內存分配嗎?
內存是計算機中必不可少的資源,因為 CPU 只能直接讀取內存中的數據,所以當 CPU 需要讀取外部設備(如硬盤)的數據時,必須先把數據加載到內存中。
我們來看看可愛的內存長什么樣子的吧,如圖1所示:
一、內存申請
通常使用高級語言(如Go、Java 或 Python 等)都不需要自己管理內存(因為有垃圾回收機制),但 C/C++ 程序員就經常要與內存打交道。
當我們使用 C/C++ 編寫程序時,如果需要使用內存,就必須先調用 malloc 函數來申請一塊內存。但是,malloc 真的是申請了內存嗎?
我們通過下面例子來觀察 malloc 到底是不是真的申請了內存:
- 1#include <stdlib.h>
- 2
- 3int main(int argc, char const *argv[])
- 4{
- 5 void *ptr;
- 6
- 7 ptr = malloc(1024 * 1024 * 1024); // 申請 1GB 內存
- 8
- 9 sleep(3600); // 睡眠3600秒, 方便調試
- 10
- 11 return 0;
- 12}
上面的程序主要通過調用 malloc 函數來申請了 1GB 的內存,然后睡眠 3600 秒,方便我們查看其內存使用情況。
現在,我們編譯上面的程序并且運行,如下:
- $ gcc malloc.c -o malloc
- $ ./malloc
并且我們打開一個新的終端,然后查看其內存使用情況,如圖 2 所示:
圖2 中的 VmRSS 表示進程使用的物理內存大小,但我們明明申請了 1GB 的內存,為什么只顯示使用 404KB 的內存呢?這里就涉及到 虛擬內存 和 物理內存 的概念了。
二、物理內存與虛擬內存
下面先來介紹一下 物理內存 與 虛擬內存 的概念:
- 物理內存:也就是安裝在計算機中的內存條,比如安裝了 2GB 大小的內存條,那么物理內存地址的范圍就是 0 ~ 2GB。
- 虛擬內存:虛擬的內存地址。由于 CPU 只能使用物理內存地址,所以需要將虛擬內存地址轉換為物理內存地址才能被 CPU 使用,這個轉換過程由 MMU(Memory Management Unit,內存管理單元) 來完成。虛擬內存 大小不受 物理內存 大小的限制,在 32 位的操作系統中,每個進程的虛擬內存空間大小為 0 ~ 4GB。
程序中使用的內存地址都是虛擬內存地址,也就是說,我們通過 malloc 函數申請的內存都是虛擬內存。實際上,內核會為每個進程管理其虛擬內存空間,并且會把虛擬內存空間劃分為多個區域,如 圖3 所示:
我們來分析一下這些區域的作用:
- 代碼段:用于存放程序的可執行代碼。
- 數據段:用于存放程序的全局變量和靜態變量。
- 堆空間:用于存放由 malloc 申請的內存。
- 棧空間:用于存放函數的參數和局部變量。
- 內核空間:存放 Linux 內核代碼和數據。
三、brk指針
由此可知,通過 malloc 函數申請的內存地址是由 堆空間 分配的(其實還有可能從 mmap 區分配,這種情況暫時忽略)。在內核中,使用一個名為 brk 的指針來表示進程的 堆空間 的頂部,如 圖4 所示:
所以,通過移動 brk 指針就可以達到申請(向上移動)和釋放(向下移動)堆空間的內存。例如申請 1024 字節時,只需要把 brk 向上移動 1024 字節即可,如 圖5 所示:
事實上,malloc 函數就是通過移動 brk 指針來實現申請和釋放內存的,Linux 提供了一個名為 brk() 的系統調用來移動 brk 指針。
四、內存映射
現在我們知道,malloc 函數只是移動 brk 指針,但并沒有申請物理內存。前面我們介紹虛擬內存和物理內存的時候介紹過,虛擬內存地址必須映射到物理內存地址才能被使用。如 圖6 所示:
如果對沒有進行映射的虛擬內存地址進行讀寫操作,那么將會發生 缺頁異常。Linux 內核會對 缺頁異常 進行修復,修復過程如下:
- 獲取觸發 缺頁異常 的虛擬內存地址(讀寫哪個虛擬內存地址導致的)。
- 查看此虛擬內存地址是否被申請(是否在 brk 指針內),如果不在 brk 指針內,將會導致 Segmention Fault 錯誤(也就是常見的coredump),進程將會異常退出。
- 如果虛擬內存地址在 brk 指針內,那么將此虛擬內存地址映射到物理內存地址上,完成 缺頁異常 修復過程,并且返回到觸發異常的地方進行運行。
從上面的過程可以看出,不對申請的虛擬內存地址進行讀寫操作是不會觸發申請新的物理內存。所以,這就解釋了為什么申請 1GB 的內存,但實際上只使用了 404 KB 的物理內存。
五、總結
本文主要解釋了內存申請的原理,并且了解到 malloc 申請的只是虛擬內存,而且物理內存的申請延遲到對虛擬內存進行讀寫的時候,這樣做可以減輕進程對物理內存使用的壓力。