Linux 保護(hù)模式下的內(nèi)存管理

作者：cxuan 2023-07-06 00:45:05

每個(gè)任務(wù)會(huì)單獨(dú)的放在自己的虛擬地址空間中，再經(jīng)過硬件映射成為物理地址，不同的虛擬地址會(huì)變換成為不同的物理地址，不會(huì)存在 A 的虛擬地址會(huì)映射到 B 所在的物理地址的范圍內(nèi)，這樣就會(huì)把所有的任務(wù)都隔絕開，且不同任務(wù)之間不會(huì)相互干擾。

我們知道，內(nèi)存可以看做一個(gè)非常大的數(shù)組，我們想要查找內(nèi)存中某個(gè)元素的話，會(huì)通過數(shù)組的下標(biāo)來指定，內(nèi)存也是如此，不過這有一個(gè)前提是這個(gè)數(shù)組是由一組有序的字節(jié)組成的，在這個(gè)有序的字節(jié)數(shù)組中，每個(gè)字節(jié)都有一個(gè)唯一的地址，這個(gè)地址也叫做內(nèi)存地址。

內(nèi)存中存儲(chǔ)著很多對(duì)象，每個(gè)對(duì)象是由不同字節(jié)組成的，比如一個(gè) char 對(duì)象，一個(gè) byte 對(duì)象，一個(gè) int 對(duì)象等等，它們都分部在內(nèi)存的各個(gè)位置中，CPU 對(duì)內(nèi)存中這些對(duì)象的地址進(jìn)行定位的操作就叫做內(nèi)存尋址。內(nèi)存從 0 地址處開始編址，總共能查找到多少位的內(nèi)存地址呢？答：是根據(jù)總線寬度來定位的。由于 80X86 是 32 位的，所以總線寬度也是 32 位，因此一共有 2 ^ 32 個(gè)內(nèi)存地址，所以總共可以存放 4GB 的內(nèi)存地址。由于內(nèi)存地址是連續(xù)的，于是可以連續(xù)的取出多個(gè)字節(jié)的數(shù)據(jù)類型，例如 int、long、double。

雖然能夠?qū)ぶ返綄?duì)象，但是這些對(duì)象存放的字節(jié)順序是不同的，這里分為兩種存放方式，即大端法和小端法。

比如現(xiàn)在有一個(gè) int 類型的對(duì)象，位于地址 0x100 處，它的十六進(jìn)制數(shù)值是 0x01234567，我給你畫一幅圖你就明白這兩個(gè)存放順序的區(qū)別了。

這個(gè)其實(shí)很好理解，0x01234567 的 int 數(shù)據(jù)類型可以拆分為 01 23 45 67 個(gè)字節(jié)，并且 01 是高位，67 是低位，于是可以解釋小端法和大端法的存儲(chǔ)順序：即小端法是低位在前，而大端法是高位在前。大端法和小端法只是存儲(chǔ)順序的區(qū)別，和對(duì)象的位數(shù)、數(shù)值無關(guān)。大多數(shù) Intel 機(jī)器都采用的是小端模式，所以 80X86 也是小端存儲(chǔ)，而一些 IBM 和 Oracle 的大多數(shù)機(jī)器都是使用的大端存儲(chǔ)方式。

由于計(jì)算機(jī)是無法直接將內(nèi)存中的數(shù)據(jù)一次性全部尋址完畢，因?yàn)樗鄬?duì)實(shí)在太過龐大，所以內(nèi)存一般會(huì)進(jìn)行分段，這里就涉及一個(gè)疑問：即內(nèi)存為什么要分段。我上面只是籠統(tǒng)的介紹了下。

內(nèi)存為什么要分段？

https://t.zsxq.com/0cweMndpM

分段機(jī)制把內(nèi)存空間分成一個(gè)或多個(gè)段的線性區(qū)域，這部分線性區(qū)域可以使用段基址 + 段內(nèi)偏移來確定。段基址部分由 16 位的段選擇符來指定，其中 14 位是可以選擇 2 ^ 14 次方即 16384 個(gè)段，段內(nèi)偏移地址部分使用 32 位的值來指定，因此段內(nèi)地址可以是 0 - 4G ，一個(gè)段的最大長度是 4 GB，這也就和上面所說的 4 GB 的內(nèi)存地址相呼應(yīng)。由 16 位段和 32 位段內(nèi)偏移構(gòu)成的 48 位地址或長指針稱為一個(gè)邏輯地址，邏輯地址就是虛擬地址。

X86 有幾個(gè)專門存放段基址的寄存器：CS、DS、ES、SS、FS 和 GS。其中 CS 用于尋址代碼段，SS 用于尋址堆棧段，其他寄存器用于尋址數(shù)據(jù)段。在任何指定時(shí)刻由 CS 尋址的段稱為當(dāng)前代碼段。此時(shí) EIP 寄存器中就包含了當(dāng)前代碼段內(nèi)下一條需要執(zhí)行指令的偏移地址。此時(shí)的段基址：偏移地址就可以表示為 CS:EIP 了。

由段寄存器 SS 尋址的段稱為當(dāng)前堆棧段，棧頂由 ESP 寄存器給出，在任何時(shí)刻 SS：ESP 都指向棧頂，并且沒有例外情況，其他四個(gè)是通用數(shù)據(jù)段寄存器，當(dāng)指令中默認(rèn)沒有數(shù)據(jù)段時(shí)，由 DS 給出。

地址轉(zhuǎn)換

一個(gè)完整的內(nèi)存管理系統(tǒng)一般都會(huì)包含兩部分：訪問保護(hù)和地址轉(zhuǎn)換。訪問保護(hù)是為了防止一個(gè)應(yīng)用程序訪問的內(nèi)存地址是另一塊程序所使用的；地址轉(zhuǎn)換就是給不同的應(yīng)用程序提供一個(gè)動(dòng)態(tài)的地址分配方式。訪問保護(hù)和地址轉(zhuǎn)換是相輔相成的。

地址轉(zhuǎn)換通常以內(nèi)存塊作為基本單位，這里解釋下什么是塊，大家知道在 Linux 中，一切都是文件，而文件就是由一個(gè)個(gè)的塊構(gòu)成的，塊（block）是用于描述文件系統(tǒng)的組成單位，也是數(shù)據(jù)處理的基本單位。雖說塊是基本單位，但是其本質(zhì)也是由一個(gè)個(gè)扇區(qū)構(gòu)成的，常見的塊有 512B、1KB、4KB 等。

地址轉(zhuǎn)換有兩種實(shí)現(xiàn)方式：分段機(jī)制和分頁機(jī)制。x86 在內(nèi)存管理的實(shí)現(xiàn)方式結(jié)合了分段和分頁機(jī)制，下面是虛擬地址經(jīng)過分段和分頁后轉(zhuǎn)換為物理地址的映射圖

針對(duì)這張圖，有必要解釋一下：

首先，這張圖包含三個(gè)地址和這三個(gè)地址的轉(zhuǎn)換過程，從大體上來看，邏輯地址會(huì)經(jīng)過分段基址轉(zhuǎn)換后變?yōu)榫€性地址，線性地址是保護(hù)模式下的段基址 + 段內(nèi)偏移，因此這張圖是保護(hù)模式下的地址轉(zhuǎn)換圖。線性地址會(huì)經(jīng)過分頁機(jī)制后轉(zhuǎn)換為物理地址，前提是需要開啟分頁機(jī)制；如果沒有開啟分頁機(jī)制，線性地址 = 物理地址。

需要再說一下邏輯地址，邏輯地址里面包含段選擇子和段內(nèi)偏移，段選擇子這個(gè)概念我剛開始接觸也比較模糊，簡單一點(diǎn)來說可以把它理解為是保護(hù)模式下的段基址，大家知道段基址是 16 位的，而段內(nèi)偏移是 32 位的。

很多書或者文章中都提到了段選擇符，其實(shí)段選擇子就是段選擇符，這完全是翻譯問題，英文都是 selector。
后面會(huì)提到段描述符，段描述符和段選擇子不是一回事，但段選擇子是一個(gè) 16 位的段描述符。

再和大家說一下這個(gè)圖上沒有寫出來的內(nèi)容，現(xiàn)在大家知道邏輯地址可以轉(zhuǎn)換為線性地址，線性地址可以轉(zhuǎn)換為物理地址，那么根源是如何轉(zhuǎn)換的呢？實(shí)際上這里使用的方式是 MMU（內(nèi)存管理單元）進(jìn)行轉(zhuǎn)換；而線性地址轉(zhuǎn)換為物理地址使用的是分頁單元的硬件電路。具體的轉(zhuǎn)換過程不是此篇文章討論的重點(diǎn)，我們把重點(diǎn)還是放在分段和分頁這兩個(gè)機(jī)制上。

下面來詳細(xì)聊一聊分段和分頁這兩個(gè)機(jī)制。

分段機(jī)制

這里推薦大家先看一下我寫的 "內(nèi)存為什么要分段" 的那段描述。

https://t.zsxq.com/0cweMndpM

分段提供了隔絕代碼、數(shù)據(jù)和堆棧區(qū)域的機(jī)制，這才使得多個(gè)程序能夠運(yùn)行在同一個(gè)內(nèi)存空間中不會(huì)相互干擾。如果 CPU 中有多個(gè)程序或者任務(wù)正在運(yùn)行，那么每個(gè)程序都可以分配各自的一套段（包含程序代碼、數(shù)據(jù)和堆棧），CPU 通過加強(qiáng)段之間的界限來達(dá)到防止應(yīng)用程序相互干擾的目的。

一個(gè)系統(tǒng)中所有使用的段都包含在 CPU 的線性地址空間中。為了定位指定段中的字節(jié)，程序必須提供邏輯地址才能進(jìn)行轉(zhuǎn)換。邏輯地址包含段選擇子和段內(nèi)偏移，每個(gè)段都有一個(gè)段描述符，段描述符用于指出段的大小、訪問權(quán)限和段的特權(quán)級(jí)、段類型以及段第一個(gè)字節(jié)在線性地址空間中的位置（段基址）。邏輯地址的偏移量部分加到段基址上就可以定位段中某個(gè)字節(jié)的位置，因此段基址 + 偏移量形成了 CPU 線性地址空間中的地址。

線性地址空間與物理地址空間具有相同的結(jié)構(gòu)，但是它們所能容納的段相差甚遠(yuǎn)，虛擬地址也就是邏輯地址空間可包含最多 16 K 的段，而每個(gè)段可容納的大小為 4 GB ，所以虛擬地址總共能查找到 64TB（2 ^ 46）的段，線性地址和物理地址的空間是 4GB （2 ^ 32）。所以，如果禁用了分頁機(jī)制，那么線性地址空間就是物理地址空間。

這幅圖就是邏輯地址 -> 線性地址 -> 物理地址的映射圖，GDT 表和 LDT 表各占一半的地址空間，各為 8192 個(gè)段，每個(gè)段最長為 4 G，從 GDT 表還是 LDT 表查詢，具體從哪個(gè)表查還是要看段選擇子的 TI 屬性，段選擇子的結(jié)構(gòu)如下所示

段選擇子總共分為三個(gè)部分：

RPL（Request Privilege Level）：請(qǐng)求特權(quán)級(jí)，表示進(jìn)程應(yīng)該以什么權(quán)限來訪問段，數(shù)值越大權(quán)限越小。
TI（Table Indicator）：表示應(yīng)該查詢哪個(gè)表，TI = 0 查 GDT 表；TI = 1 查 LDT 表。
Index：CPU 會(huì)自動(dòng)將 Index * 8，在加上 GDT 和 LDT 中的段基址，就是要加載的段描述符。

這里沒有太細(xì)致的詳解一下段描述符，因?yàn)榇似€是偏向于內(nèi)存管理，沒有太執(zhí)著于某個(gè)細(xì)節(jié)。

邏輯地址由兩部分組成，段選擇子和偏移量，段選擇字可以合成段描述符，然后它們會(huì)直接保存在 GDTR 中。段選擇子和段內(nèi)偏移經(jīng)過 MMU 后可以轉(zhuǎn)換成為線性地址。

分頁機(jī)制

上面我們說到，線性地址是由邏輯地址轉(zhuǎn)換過來的，如果禁用了分頁機(jī)制，線性地址就是物理地址，如果開啟分頁機(jī)制，線性地址和邏輯地址空間的數(shù)量還是不同的。一般程序都是多任務(wù)的，而多任務(wù)通常定義的線性地址空間要比物理內(nèi)存容量大得多，為什么呢？地址轉(zhuǎn)換映射圖上畫著明明線性地址和物理地址都是 4G 的大小啊。那是因?yàn)椋€性地址被虛擬存儲(chǔ)技術(shù)所虛擬化了。

虛擬存儲(chǔ)是一種內(nèi)存管理技術(shù)，使用這項(xiàng)技術(shù)可以讓我們產(chǎn)生內(nèi)存空間要比實(shí)際的物理內(nèi)存容量大的多的錯(cuò)覺，其本質(zhì)是把內(nèi)存虛擬化了，就是說內(nèi)存可能只有 4G，但是你以為內(nèi)存有 64 G，所以我為什么能開那么多應(yīng)用程序的原因。

分頁機(jī)制其實(shí)就是虛擬化的一種實(shí)現(xiàn)，在虛擬化的環(huán)境中，大量的線性地址空間會(huì)映射到一小塊物理內(nèi)存（RAM 或者 ROM）中。當(dāng)使用分頁時(shí)，每個(gè)段被劃分成頁面（一般為 4K），這個(gè)頁面會(huì)存儲(chǔ)在物理內(nèi)存或硬盤上。操作系統(tǒng)通過使用一個(gè)頁目錄和頁表來維護(hù)這些頁面。當(dāng)程序試圖訪問線性地址空間中的某一個(gè)地址位置時(shí)，CPU 就會(huì)使用頁目錄和頁表把這個(gè)線性地址轉(zhuǎn)換成物理地址，再存儲(chǔ)在物理內(nèi)存上。

如果當(dāng)前訪問的頁面不在物理內(nèi)存中，CPU 就會(huì)執(zhí)行中斷，一般錯(cuò)誤就是頁面異常，然后操作系統(tǒng)會(huì)把這個(gè)頁面從硬盤上讀入物理內(nèi)存中，然后繼續(xù)從中斷處執(zhí)行程序。操作系統(tǒng)經(jīng)常會(huì)進(jìn)行頻繁的頁面換入換出操作，這也是一個(gè)性能瓶頸所在。

分段中的每個(gè)段長度是不固定的，最大位 4G，而分頁中的每個(gè)頁面大小是固定的。不論在物理內(nèi)存還是磁盤上，使用固定大小的頁面更適合管理物理內(nèi)存；而分段機(jī)制使用大小可變的塊更適合處理復(fù)雜系統(tǒng)的邏輯分區(qū)。

雖然分段和分頁是兩種不同的地址轉(zhuǎn)換機(jī)制，但是它們對(duì)整個(gè)地址變換是獨(dú)立處理的，每個(gè)過程都是獨(dú)立的。這兩種機(jī)制都使用了一種中間表來存儲(chǔ)表項(xiàng)映射，但是這個(gè)中間表的結(jié)構(gòu)是不同的。段表存在線性地址空間中，頁表則存儲(chǔ)在物理地址空間。

保護(hù)機(jī)制

80x86 包含兩種保護(hù)機(jī)制，第一種是為每個(gè)任務(wù)分配不同的虛擬地址空間來完全隔離各個(gè)任務(wù)。這是通過給每個(gè)任務(wù)邏輯地址到物理地址的不同變換得到的，每個(gè)應(yīng)用程序只能訪問自己虛擬空間內(nèi)的數(shù)據(jù)和指令，只能通過它自己的映射得到物理地址；第二種機(jī)制是保護(hù)任務(wù)，保護(hù)操作系統(tǒng)的內(nèi)存段和一些特殊寄存器不會(huì)被應(yīng)用程序所訪問。下面我們就來具體探討一下這兩個(gè)任務(wù)。

任務(wù)之間的保護(hù)

每個(gè)任務(wù)都有各自的映射表、段表和頁表，當(dāng) CPU 切換不同的應(yīng)用程序或任務(wù)時(shí)，這些表也會(huì)進(jìn)行切換。

虛擬地址是操作系統(tǒng)的抽象，也就是說虛擬地址完全是操作系統(tǒng)所抽象出來能夠更好管理應(yīng)用程序和任務(wù)的一個(gè)載體，每個(gè)任務(wù)都可以把邏輯地址映射成為虛擬地址，這也表明每個(gè)任務(wù)都可以訪問操作系統(tǒng)，操作系統(tǒng)可以被所有的任務(wù)所共享。這個(gè)所有任務(wù)都具有相同虛擬地址空間的部分被稱為全局地址空間（Global address space），Linux 就使用到了全局地址空間。

全局地址空間中每個(gè)任務(wù)都有自己的唯一的虛擬地址空間，這個(gè)虛擬地址空間叫做局部地址空間（Local address space）。

內(nèi)存段和寄存器的特殊保護(hù)

如果說操作系統(tǒng)在不同任務(wù)之間的保護(hù)是橫向的話，那么對(duì)內(nèi)存段和寄存器的等級(jí)保護(hù)就是縱向的。操作系統(tǒng)定義了 4 個(gè)特權(quán)級(jí)來對(duì)每個(gè)任務(wù)提供保護(hù)，來限制對(duì)任務(wù)中各段的訪問。

優(yōu)先級(jí)分為 4 個(gè)等級(jí)，0 最高，3 最低。一般最敏感的數(shù)據(jù)會(huì)被賦予最高優(yōu)先級(jí)，它們只能被任務(wù)中最受信任的部分訪問，不太敏感的數(shù)據(jù)會(huì)賦予低優(yōu)先級(jí)；內(nèi)核操作系統(tǒng)訪問一般是 0 級(jí)，應(yīng)用程序數(shù)據(jù)一般是 3 級(jí)。每個(gè)內(nèi)存段都與一個(gè)特權(quán)級(jí)相關(guān)聯(lián)。

我們知道 CPU 通過 CS 從段中取得指令和數(shù)據(jù)執(zhí)行，從段中取得的指令和數(shù)據(jù)是具有特權(quán)級(jí)的，一般用當(dāng)前特權(quán)級(jí)（Current Privilege Level）來訪問，CPL 就是當(dāng)前活動(dòng)代碼的特權(quán)級(jí)。每當(dāng)有應(yīng)用程序試圖訪問段時(shí)，就會(huì)與這個(gè)特權(quán)級(jí)進(jìn)行比較，只有比段的特權(quán)級(jí)低才能夠訪問。

責(zé)任編輯：武曉燕來源：今日頭條