從進(jìn)程棧內(nèi)存底層原理到Segmentation fault報(bào)錯(cuò)
大家好,我是飛哥!
棧是編程中使用內(nèi)存最簡(jiǎn)單的方式。例如,下面的簡(jiǎn)單代碼中的局部變量 n 就是在堆棧中分配內(nèi)存的。
那么我有幾個(gè)問題想問問大家,看看大家對(duì)于堆棧內(nèi)存是否真的了解。
- 堆棧的物理內(nèi)存是什么時(shí)候分配的?
- 堆棧的大小限制是多大?這個(gè)限制可以調(diào)整嗎?
- 當(dāng)堆棧發(fā)生溢出后應(yīng)用程序會(huì)發(fā)生什么?
如果你對(duì)以上問題還理解不是特別深刻,飛哥今天來帶你好好修煉進(jìn)程堆棧內(nèi)存這塊的內(nèi)功!
一、進(jìn)程堆棧的初始化
前面我們?cè)凇赌銓懙拇a是如何跑起來的?》這篇文章中介紹了進(jìn)程的啟動(dòng)過程。進(jìn)程啟動(dòng)調(diào)用 exec 加載可執(zhí)行文件過程的時(shí)候,會(huì)給進(jìn)程棧申請(qǐng)一個(gè) 4 KB 的初始內(nèi)存。我們今天來專門抽取并看一下這段邏輯。
加載系統(tǒng)調(diào)用 execve 依次調(diào)用 do_execve、do_execve_common 來完成實(shí)際的可執(zhí)行程序加載。
在 bprm_mm_init 中會(huì)申請(qǐng)一個(gè)全新的地址空間 mm_struct 對(duì)象,準(zhǔn)備留著給新進(jìn)程使用。
還會(huì)給新進(jìn)程的棧申請(qǐng)一頁大小的虛擬內(nèi)存空間,作為給新進(jìn)程準(zhǔn)備的棧內(nèi)存。申請(qǐng)完后把棧的指針保存到 bprm->p 中記錄起來。
我們平時(shí)所說的進(jìn)程虛擬地址空間在 Linux 是通過一個(gè)個(gè)的 vm_area_struct 對(duì)象來表示的。
每一個(gè) vm_area_struct(就是上面 __bprm_mm_init 函數(shù)中的 vma)對(duì)象表示進(jìn)程虛擬地址空間里的一段范圍,其 vm_start 和 vm_end 表示啟用的虛擬地址范圍的開始和結(jié)束。
要注意的是這只是地址范圍,而不是真正的物理內(nèi)存分配。
在上面 __bprm_mm_init 函數(shù)中通過 kmem_cache_zalloc 申請(qǐng)了一個(gè) vma 內(nèi)核對(duì)象。vm_end 指向了 STACK_TOP_MAX(地址空間的頂部附近的位置),vm_start 和 vm_end 之間留了一個(gè) Page 大小。也就是說默認(rèn)給棧準(zhǔn)備了 4KB 的大小。最后把棧的指針記錄到 bprm->p 中。
接下來進(jìn)程加載過程會(huì)使用 load_elf_binary 真正開始加載可執(zhí)行二進(jìn)制程序。在加載時(shí),會(huì)把前面準(zhǔn)備的進(jìn)程棧的地址空間指針設(shè)置到了新進(jìn)程 mm 對(duì)象上。
這樣新進(jìn)程將來就可以使用棧進(jìn)行函數(shù)調(diào)用,以及局部變量的申請(qǐng)了。
前面我們說了,這里只是給棧申請(qǐng)了地址空間對(duì)象,并沒有真正申請(qǐng)物理內(nèi)存。我們接著再來看一下,物理內(nèi)存頁究竟是什么時(shí)候分配的。
二、物理頁的申請(qǐng)
當(dāng)進(jìn)程在運(yùn)行的過程中在棧上開始分配和訪問變量的時(shí)候,如果物理頁還沒有分配,會(huì)觸發(fā)缺頁中斷。在缺頁中斷種來真正地分配物理內(nèi)存。
為了避免篇幅過長(zhǎng),觸發(fā)缺頁中斷的過程就先不展開了。我們直接看一下缺頁中斷的核心處理入口 __do_page_fault,它位于 arch/x86/mm/fault.c 文件下。
當(dāng)訪問棧上變量的內(nèi)存的時(shí)候,首先會(huì)調(diào)用 find_vma 根據(jù)變量地址 address 找到其所在的 vma 對(duì)象。接下來調(diào)用的 if (vma->vm_start <= address) 是在判斷地址空間還夠不夠用。
如果棧內(nèi)存 vma 的 start 比要訪問的 address 小,則證明地址空間夠用,只需要分配物理內(nèi)存頁就行了。如果棧內(nèi)存 vma 的 start 比要訪問的 address 大,則需要調(diào)用 expand_stack 先擴(kuò)展一下棧的虛擬地址空間 vma。擴(kuò)展虛擬地址空間的具體細(xì)節(jié)我們?cè)诘谌?jié)再講。
這里先假設(shè)要訪問的變量地址 address 處于棧內(nèi)存 vma 對(duì)象的 vm_start 和 vm_end 之間。那么缺頁中斷處理就會(huì)跳轉(zhuǎn)到 good_area 處運(yùn)行。在這里調(diào)用 handle_mm_fault 來完成真正物理內(nèi)存的申請(qǐng)。
Linux 是用四級(jí)頁表來管理虛擬地址空間到物理內(nèi)存之間的映射管理的。所以在實(shí)際申請(qǐng)物理頁面之前,需要先 check 一遍需要的每一級(jí)頁表項(xiàng)是否存在,不存在的話需要申請(qǐng)。
為了好區(qū)分,Linux 還給每一級(jí)頁表都起了一個(gè)名字。
- 一級(jí)頁表:Page Global Dir,簡(jiǎn)稱 pgd
- 二級(jí)頁表:Page Upper Dir,簡(jiǎn)稱 pud
- 三級(jí)頁表:Page Mid Dir,簡(jiǎn)稱 pmd
- 四級(jí)頁表:Page Table,簡(jiǎn)稱 pte
看一下下面這個(gè)圖就比較好理解了
在 handle_pte_fault 會(huì)處理很多種的內(nèi)存缺頁處理,比如文件映射缺頁處理、swap缺頁處理、寫時(shí)復(fù)制缺頁處理、匿名映射頁處理等等幾種情況。我們今天討論的主題是棧內(nèi)存,這個(gè)對(duì)應(yīng)的是匿名映射頁處理,會(huì)進(jìn)入到 do_anonymous_page 函數(shù)中。
在 do_anonymous_page 調(diào)用 alloc_zeroed_user_highpage_movable 分配一個(gè)可移動(dòng)的匿名物理頁出來。在底層會(huì)調(diào)用到伙伴系統(tǒng)的 alloc_pages 進(jìn)行實(shí)際物理頁面的分配。
內(nèi)核是用伙伴系統(tǒng)來管理所有的物理內(nèi)存頁的。其它模塊需要物理頁的時(shí)候都會(huì)調(diào)用伙伴系統(tǒng)對(duì)外提供的函數(shù)來申請(qǐng)物理內(nèi)存。
關(guān)于伙伴系統(tǒng)我們之前在內(nèi)核內(nèi)存管理 這篇文章中詳細(xì)介紹過,感興趣的同學(xué)可以移步到該文中詳細(xì)了解。
到了這里,開篇的問題一就有答案了,堆棧的物理內(nèi)存是什么時(shí)候分配的?進(jìn)程在加載的時(shí)候只是會(huì)給新進(jìn)程的棧內(nèi)存分配一段地址空間范圍。而真正的物理內(nèi)存是等到訪問的時(shí)候觸發(fā)缺頁中斷,再?gòu)幕锇橄到y(tǒng)中申請(qǐng)的。
三、棧的自動(dòng)增長(zhǎng)
前面我們看到了,進(jìn)程在被加載啟動(dòng)的時(shí)候,棧內(nèi)存默認(rèn)只分配了 4 KB 的空間。那么隨著程序的運(yùn)行,當(dāng)棧中保存的調(diào)用鏈,局部變量越來越多的時(shí)候,必然會(huì)超過 4 KB。
我回頭看下缺頁處理函數(shù) __do_page_fault。如果棧內(nèi)存 vma 的 start 比要訪問的 address 大,則需要調(diào)用 expand_stack 先擴(kuò)展一下棧的虛擬地址空間 vma。
回顧 __do_page_fault 源碼,看到擴(kuò)充棧空間的是由 expand_stack 函數(shù)來完成的。
我們來看下 expand_stack 的內(nèi)部細(xì)節(jié)。
其實(shí)在 Linux 棧地址空間增長(zhǎng)是分兩種方向的,一種是從高地址往低地址增長(zhǎng),一種是反過來。大部分情況都是由高往低增長(zhǎng)的。本文只以向下增長(zhǎng)為例。
在 expand_downwards 中先進(jìn)行了幾個(gè)計(jì)算。
- 計(jì)算出新的堆棧大小。計(jì)算公式是 size = vma->vm_end - address;
- 計(jì)算需要增長(zhǎng)的頁數(shù)。計(jì)算公式是 grow = (vma->vm_start - address) >> PAGE_SHIFT;
然后會(huì)判斷此次棧空間是否被允許擴(kuò)充, 判斷是在 acct_stack_growth 中完成的。如果允許擴(kuò)展,則簡(jiǎn)單修改一下 vma->vm_start 就可以了!
我們?cè)賮砜?acct_stack_growth 都進(jìn)行了哪些限制判斷。
在 acct_stack_growth 中只是進(jìn)行一系列的判斷。may_expand_vm? 判斷的是增長(zhǎng)完這幾個(gè)頁后是否超出整體虛擬地址空間大小的限制。rlim[RLIMIT_STACK].rlim_cur 中記錄的是棧空間大小的限制。這些限制都可以通過 ulimit 命令查看到。
上面的這個(gè)輸出表示虛擬地址空間大小沒有限制,棧空間的限制是 8 MB。如果進(jìn)程棧大小超過了這個(gè)限制,會(huì)返回 -ENOMEM。如果覺得系統(tǒng)默認(rèn)的大小不合適可以通過 ulimit 命令修改。
到這里開篇的第二個(gè)問題也有答案了,堆棧的大小限制是多大?這個(gè)限制可以調(diào)整嗎?進(jìn)程堆棧大小的限制在每個(gè)機(jī)器上都是不一樣的,可以通過 ulimit 命令來查看,也同樣可以使用該命令修改。
至于開篇的問題3,當(dāng)堆棧發(fā)生溢出后應(yīng)用程序會(huì)發(fā)生什么?寫個(gè)簡(jiǎn)單的無限遞歸調(diào)用就知道了,估計(jì)你也遇到過。報(bào)錯(cuò)結(jié)果就是
本文總結(jié)
來總結(jié)下本文的內(nèi)容,本文討論了進(jìn)程棧內(nèi)存的工作原理。
第一,進(jìn)程在加載的時(shí)候給進(jìn)程棧申請(qǐng)了一塊虛擬地址空間 vma 內(nèi)核對(duì)象。vm_start 和 vm_end 之間留了一個(gè) Page ,也就是說默認(rèn)給棧準(zhǔn)備了 4KB 的空間。第二,當(dāng)進(jìn)程在運(yùn)行的過程中在棧上開始分配和訪問變量的時(shí)候,如果物理頁還沒有分配,會(huì)觸發(fā)缺頁中斷。在缺頁中斷中調(diào)用內(nèi)核的伙伴系統(tǒng)真正地分配物理內(nèi)存。第三,當(dāng)棧中的存儲(chǔ)超過 4KB 的時(shí)候會(huì)自動(dòng)進(jìn)行擴(kuò)大。不過大小要受到限制,其大小限制可以通過 ?ulimit -s來查看和設(shè)置。
注意,今天我們討論的都是進(jìn)程棧。線程棧和進(jìn)程棧有些不一樣。等后面有空我們?cè)賳为?dú)看線程棧。
在回顧和總結(jié)下開篇我們拋出的三個(gè)問題:
問題一:堆棧的物理內(nèi)存是什么時(shí)候分配的?進(jìn)程在加載的時(shí)候只是會(huì)給新進(jìn)程的棧內(nèi)存分配一段地址空間范圍。而真正的物理內(nèi)存是等到訪問的時(shí)候觸發(fā)缺頁中斷,再?gòu)幕锇橄到y(tǒng)中申請(qǐng)的。
問題二:堆棧的大小限制是多大?這個(gè)限制可以調(diào)整嗎?進(jìn)程堆棧大小的限制在每個(gè)機(jī)器上都是不一樣的,可以通過 ulimit 命令來查看,也同樣可以使用該命令修改。
問題3:當(dāng)堆棧發(fā)生溢出后應(yīng)用程序會(huì)發(fā)生什么?當(dāng)堆棧溢出的時(shí)候,我們會(huì)收到報(bào)錯(cuò) “Segmentation fault (core dumped)”
最后,拋個(gè)問題大家一起思考吧。你覺得內(nèi)核為什么要對(duì)進(jìn)程棧的地址空間進(jìn)行限制呢?