圖解 | Linux內存回收之LRU算法
內存 是操作系統非常重要的資源,操作系統要運行一個程序,必須先把程序代碼段的指令和數據段的變量從硬盤加載到內存中,然后才能被運行。如下圖所示:
但內存資源是有限的,隨著系統中運行的進程越來越多,系統中可用的內存就會越來越少。那么,當可用內存不足時,Linux 內核是怎么處理的呢?
本文將會介紹,當可用內存不足時,Linux 內核的處理方式。
一、內存不足的處理方式
我們思考一下,當系統的可用內存不足時,進程繼續申請內存會發生什么事情?
當系統的可用內存不足時,內核為了保證進程有足夠的內存可用,將會對內存進行回收工作。內存回收工作主要包括以下幾個步驟:
- 內核為了加速某些操作(如文件 I/O),會對操作的結果進行緩存(如文件頁緩存),而緩存使用的內存是可以被回收的。所以,當可用內存不足時,首先會回收內核中的緩存。
- 如果回收內核緩存后,系統的可用內存仍然處于不足。那么,內核將會觸發 swap 機制。swap 機制會將某些進程所占用的內存交換(寫入)到硬盤中,然后釋放這些內存,從而讓系統有更多可用的內存。本文將會重點介紹 swap 機制。
- 如果觸發 swap 機制后,系統的可用內存仍不能滿足系統需求,那么將會觸發 OOM(Out Of Memory) 機制。OOM 機制將會挑選一些進程,然后將這些進程殺死來,從而獲取更多可用內存。
由于回收內存的方式有三種,所以本文重點以 swap 機制作為分析對象,來介紹當內存不足時,內核是怎么進行內存回收工作的。
二、swap機制原理
在分析 swap 機制的實現前,我們先來介紹一下 swap 機制的原理。
本文使用 Linux-2.6.23 版本內核。
swap 這個單詞是 交換 的意思,顧名思義就是把某些進程所占用的內存交換(寫入)到硬盤,然后把內存釋放給操作系統,這樣操作系統就有更多可用的內存。如下圖所示:
由于 swap 機制的本質是將進程所占用的內存寫入到硬盤中,然后釋放這些內存。那么,就涉及到應該將哪些進程的內存交換到硬盤中。
每個進程都不希望自己占用的內存被交換到硬盤中,因為內存被交換到硬盤后,如果進程要使用到這些內存時,必須先將這些內存從硬盤中加載到內存中,才能繼續使用,這樣進程的性能將會大打折扣。正因為這個原因,內核必須提供一種最優的方案來挑選一些內存交換到硬盤,并且對進程性能的影響降到最小。
由于進程的內存空間分為多個段,如 代碼段、數據段、mmap段、堆段 和 棧段 等。那么,哪些段的內存會被交換到硬盤中呢?
答案就是:所有段的內存都有可能交換到硬盤。不過對于 代碼段 和 mmap段 這些與文件有映射關系的內存區,只需要將數據寫回到文件即可(由于代碼段的內容不會改變,所以不用進行回寫)。
而對于 數據段、堆段 和 棧段 這些段中的內存頁,由于沒有與文件進行映射(稱為 匿名內存頁),所以內核必須提供一個文件(或硬盤分區)來存儲這些內存頁的數據,這個文件(或硬盤分區)被稱為 交換分區。
從上面的分析可以得出兩個重要的信息:
匿名內存頁:沒有與任何文件進行映射的內存頁。
交換分區:用于存儲匿名內存頁數據的文件或硬盤分區。
下面主要介紹當系統內存不足時,內核是怎樣將進程的 匿名內存頁 寫入到 交換分區 中,并且回收這些 匿名內存頁 的。
1. LRU 內存淘汰算法
當系統內存不足,并且觸發 swap機制 時,內核應該選擇哪些 匿名內存頁 寫入到 交換分區 中呢?如果隨機選擇一些 匿名內存頁 寫入到 交換分區,就有可能出現如下問題:
把某個進程的 匿名內存頁 寫入到 交換分區 后,進程又馬上訪問這個內存頁,從而又要把這個內存頁從 交換分區 中讀入到內存中。這樣只會增加系統的負荷,并且不能解決系統內存不足的問題。
為了解決這個問題,Linux 內核引入了 LRU內存淘汰算法,用過 Memcached 或者 Redis 的同學應該都了解過 LRU算法。當系統內存不足時,Memcached 和 Redis 都是使用 LRU算法 來淘汰內存的。
LRU(Least Recently Used) 中文翻譯是 最近最少使用 的意思,其原理就是:當內存不足時,淘汰系統中最少使用的內存,這樣對系統性能的損耗是最小的。
為了實現 LRU算法,內核維護了兩個雙向鏈表:active_list 和 inactive_list。下面介紹下這兩個鏈表的作用:
- active_list:活躍內存頁鏈表。也就是說進程會經常訪問這個鏈表中的內存頁,所以進行內存淘汰時,不應該淘汰這個鏈表中的內存頁。
- inactive_list:不活躍內存頁鏈表。也就是說進程很少會訪問這個鏈表中的內存頁,所以進行內存淘汰時,主要淘汰這個鏈表中的內存頁。
在 Linux 內核中,每個 內存區(zone) 都會維護著一個 active_list 和一個 inactive_list。內存區 是內存管理中的一個對象,為了描述更加清晰,我們暫時當成內核中只有一個內存區,也就是說暫時認為內核中只維護著一個 active_list 和一個 inactive_list。如下圖所示:
另外,每個內存頁都有個 PG_referenced 的標志位,表示此內存頁是否被訪問過,這個標志位在內存回收過程中起著至關重要的作用。
當某個進程申請一個匿名內存頁時,內核會把這個內存頁添加到 活躍內存頁鏈表(active_list) 中,并且將 PG_referenced 標志位設置為 0。如下圖所示:
而當某個匿名內存頁被進程訪問時,根據內存頁所在的 LRU 鏈表作不同的操作:
- 如果內存頁原來處于 活躍鏈表 中,那么就會把此內存頁的 PG_referenced 設置為 1。
- 如果內存頁原來處于 非活躍鏈表 中,并且 PG_referenced 為 0。那么將內存頁的 PG_referenced 標志位設置為 1。
- 如果內存頁原來處于 非活躍鏈表 中,并且 PG_referenced 為 1。那么將會把內存頁從 非活躍鏈表 移動到 活躍鏈表,并且將 PG_referenced 設置為 0。
下圖展示了上述各種情況的流轉過程:
而當系統內存不足時,需要進行內存淘汰過程。內存頁淘汰過程與上述過程剛好相反,下面介紹一下內存頁淘汰的過程。
內存淘汰時,只能從 非活躍鏈表 中進行淘汰,淘汰過程如下:
- 從 非活躍鏈表 的尾部開始進行內存淘汰,如果內存頁的 PG_referenced 標志位為 1 時,將跳過此內存頁,并且將此內存頁的 PG_referenced 標志位設置為 0。
- 如果內存頁的 PG_referenced 標志位為 0 時,那么將此內存頁寫入到 交換分區 中,并且將所有與此內存頁的映射解除綁定,然后釋放此內存頁。
上述過程是由 shrink_inactive_list 函數完成,如下圖所示:
另外,處于 活躍鏈表 的內存頁也有衰退的過程,衰退過程如下:
- 如果內存頁的 PG_referenced 標志位為 1,那么衰退過程將會把此內存頁的 PG_referenced 標志位設置為 0。
- 如果內存頁的 PG_referenced 標志位為 0,那么衰退過程將會把此內存頁移動到 非活躍鏈表 中。
上述過程是由 shrink_active_list 函數完成,如下圖所示:
2. LRU算法狀態流轉
我們最后以一張狀態流轉圖來描述 LRU 算法的過程:
三、總結
本文主要介紹了 Linux 內核內存回收過程中使用的 LRU 算法的原理,在下一篇文章中,我們將會介紹 Linux 內核是如何實現內存回收的,有興趣的敬請期待。