為什么遞歸會造成棧溢出?探索程序的內存管理!
本文轉載自微信公眾號「五月君」,作者五月君。轉載本文請聯系五月君公眾號。
在任何編程語言中,掌握內存管理都是很重要的,一方面對于操作系統而言程序內存使用是有限制的,另外一方面內存變化也會影響我們的程序執行效率。
選擇基于 C 語言來學習,也是因為我們可以借助一些工具。例如,使用 gdb 方便的調試我們的程序,從每一步的調試,來看程序的運行變化。
本節你能學到什么?
在本文開始前,先列出幾個問題,讀者朋友可以先思考下,也是本講你能學到的一些知識點,如下:
- 我們的 32 位操作系統能夠管理的內存是多大?對應 64 位又是如何?
- 內存空間一般劃分為哪幾個段,每個段存儲都存儲哪些東西?
- 為什么說棧是一塊連續的內存空間?
- 為什么遞歸會造成棧溢出?
- 堆內存怎么申請?
前置知識
簡單列舉一些基礎知識點,這些是接下來會用到的。
- 計算機最小單位是字節(byte),1byte=8bit(翻譯為中文就是一個字節等于 8 個二進制位)
- 計算機底層使用的二進制,如果是用來展示通常是 10 進制,編程用的時候會采用 16 進制,內存地址編碼使用的就是 16 進制。
- 1 個 16 進制數字就表示 4 位二進制數字。
- 32 bit 操作系統 1 個指針占用 4 個字節,64 bit 操作系統 1 個指針占用是 8 個字節(C 語言中指針變量內存地址占有就是 8 字節)。
問題解答:我們的 32 位操作系統能夠管理的內存是多大?對應 64 位又是如何?
32 位操作系統的地址總線是 32 位,也就是尋址空間是 32 位,因為內存是按照字節尋址的,每個字節可以理解成對應一個地址編號,如下所示,可以是全 0 的,也可以是全 1 的。
- 00000000 00000000 00000000 00000000
- ........ ........ ........ ........
- 11111111 11111111 11111111 11111111
32 位操作系統能分配的地址編號數是
個字節,排列組合根據公式換算下:
最終,我們 32 位操作系統最多可管理的內存是 4 GB。
注:1024Byte = 1KB | 1024KB = 1MB | 1024MB = 1GB。
內存的訪問是比磁盤驅動器快的多了,因此 4GB 肯定也不滿足不了需求了,隨之而來的是現在的 64 位操作系統,理論上它所能管理的內存空間為 2 的 64 次方,這個數字是很大的,這個內存現在是足夠用的,通常我們是用不到這么大的。
內存劃分
內存是交由操作系統管理,它會給我們的內存做編號、用戶內存與操作系統內存隔離。
在 64 位的操作系統上,我們能夠使用的是前面的 48 位,0x0000000000000000 ~ 0x00007FFFFFFFFFFF,而內核態在用戶態最后一位上加 1 就是 0xFFFF800000000000 ~ 0xFFFFFFFFFFFFFFFF。
問題解答:內存空間一般劃分為哪幾個段,每個段存儲都存儲哪些東西?
通過上圖可以清楚的看到,我們的內存是有劃分的,一份為系統的內核空間,另外一部分為用戶空間,與我們程序相關的主要看下用戶空間部分,將內存劃分為:棧、堆、數據段、代碼段,每個里面分別存儲的是什么?下面會分別介紹,答案就在里面。
代碼段
代碼段保存我們代碼編譯后的機器碼,代碼段的內存地址也是最小的,下例,以 0x4 開頭,你可以先記住這個值,在后面介紹的其它段里,可以比較下內存大小。
- (gdb) p &swap
- $11 = (void (*)(int *, int *)) 0x40052d <swap>
- (gdb) p &main
- $12 = (int (*)()) 0x400559 <main>
數據段保存靜態變量、常量和一些全局變量,以下是一段示例,兩個函數分別定義了靜態變量 count 和執行了全局變量 globalCount。 通過 gdb 調試看下,分別在 add 函數里打印了靜態變量 count 和全局變量 globalCount 的內存地址。 靜態變量 count 是聲明在函數內部的,因此兩次打印出來的地址也是不一樣的,自然兩個是不會相互影響的,全局變量可以看到內存地址是一樣的,因此在任意一個函數里修改,值都會發生變化。 0x601038、0x60103c、0x601040 每次遞增 4 個字節,可以看到它們的內存地址是連續遞增的,數據段的內存地址以 0x6 開頭是大于代碼段的。 數據段還有一種稱為 “BSS” 段,表示未初始化或初始化為 0 的所有全局變量或靜態變量,static int a 或全局變量 int a 稱為 “未初始化數據段”。 關于初始化數據段與未初始化數據段,這里有篇文章講的也很好,可以參考 https://zhuanlan.zhihu.com/p/62208277。 棧寄存器段,指向包含當前程序棧的段,這些都是臨時的信息。例如:局部變量、函數參數、返回值和當前程序運行狀態等都存在于棧中,隨著這些臨時變量對應的作用域完成之后,也會被彈出棧。 一個變量交換示例 以下為一段 C 語言代碼示例,通過 swap 函數交換兩個變量。 先使用 gcc 編譯我們的源代碼 gcc -g main.c -o main.out,之后使用 gdb 調試。 問題解答:為什么說棧是一塊連續的內存空間? 在 C 語言里一個整型的數據大小為 4 個字節(指針類型另有規定,后面會講),整型變量 a 存儲的內存地址為 0x7fffffffe35c 也即首地址,按照 4 Byte 推算應該是 0x7fffffffe35c、0x7fffffffe35d、0x7fffffffe35e、0x7fffffffe35f。整型變量 b 的內存地址為 0x7fffffffe358 同樣按照 4 Byte 推算應該是 0x7fffffffe358、0x7fffffffe359、0x7fffffffe35a、0x7fffffffe35b 也就是加上 4 個字節正好相鄰于變量 a,因此我們還可以在確認一個問題是:“棧是一塊連續的內存區域”。 通過一個圖,相對直觀的感受下。 這時可能會產生一個疑問,為什么創建變量順序是 a、b 而分配的內存地址確是遞減的順序? 這涉及到棧的存儲結構,棧是先進后出的,棧頂的地址是由系統預先設置好的,由棧頂入棧隨后每次內存地址呈遞減的方式依次分配,當還有新元素時就繼續壓棧,最先入棧的最后出棧,也可理解為棧底對應高地址、棧頂對應低地址。 使用 gdb 調試進入 swap 函數,這兩個參數 a、b 我們定義為指針類型,可以看到它的值為外層整型變量 a 和 b 的內存地址。 swap 函數里的指針類型變量 a 與 b 也是有內存地址的,可以打印出來看下。同樣的可以看出,這兩個內存地址之間相差 8 個字節,也就號符合指針類型的定義,在 64 位系統下一個指針占用 8 個字節,當然大學課本上你可能看到過 1 個指針占用 4 個字節,那是針對的 32 位系統。 目前處于代碼的第 3 行,swap 函數里指針變量 a 存儲的是外層傳入的變量 a 的內存地址,如何獲取該值呢?那么在 C 語言中通過運算符 * 號可以取到一個內存地址對應的值,也就是“解引用”。 接下來執行 2 兩步,程序停留在第 5 行,可以看到 a 的值由 2 變為了 3,為什么 swap 函數能交換兩個變量的值,也正是因為我們在這里通過指針修改了傳進來的兩個變量的內存地址。 通過 bt 可以打印當前函數調用棧的所有信息,左側有一個 #0、#1 的序號,0 就是目前的棧頂,因為我們這個程序很簡單,程序入口函數 main() 就是我們的棧底,而當前執行的 swap() 函數就是我們的棧頂,也是當前程序所在的位置。 棧是有內存大小限制的,Linux 或 Mac 下我們可通過 ulimit -s 命令查看,結果為:8192 # stack size (kbytes) ,Linux 下用戶默認的棧空間大小為 8MB。 寫遞歸時,通常要控制好邊界,避免出現無限遞歸,遞歸的層級也不要太深,盡量不要在棧上定義太大的數據。一段遞歸調用的程序如下所示: gdb 調試之后得到如下錯誤信息: bt -n 從棧底打印 n 條信息,最下面為我們的 main 函數,除此之外可以看到 call() 總共遞歸調用了 1022 次,因為最上面序號是從 0 開始的。 問題解答:為什么遞歸會造成棧溢出? 當我們遞歸一個函數時,這個時候每一次的遞歸運行都會做壓棧操作,棧是一種先進后出的數據結構,系統也是有最大的空間限制的,Linux 下用戶默認的棧空間大小為 8MB,當棧的存放容量超出這個限制之后,通常我們的程序會得到棧溢出得到錯誤。 留一個問題大家思考下??:通過上面我們知道了遞歸層級太深會導致棧溢出,這是因為系統會有棧空間大小限制的,筆者平常使用 JavaScript 相會多一些,如果是在 JavaScript 中遇到這種問題怎么解決?不知道也沒關系,筆者最近在寫一個系列文章 《JavaScript 異步編程指南》可以帶你一起深入了解這個問題。 模擬這個問題很簡單,創建一個過大的字符數組。 通過 gdb 調試,會得到一個 “Segmentation fault” 通常也稱為段錯誤,指的是訪問的內存超出了系統給程序設定的內存空間,一般包括:不存在的內存地址、訪問了系統保護的內存地址、訪問了只讀的內存地址、棧溢出等。 解決這種問題,繼續往下看~ 堆段由開發者手動申請分配和釋放,也稱動態內存分配。在 C 語言中可以使用系統提供的函數 malloc() 和 free() 申請和釋放內存。 繼續拿上面 “字符數組棧溢出” 這個示例,現在改成在堆中創建內存,這時僅在棧中保存指針變量 str 的地址,真正數據存放于堆中,也就不會出現棧溢出問題了。 進入 gdb 調試,代碼停留在第 5 行,在未分配堆內存之前,打印 str 可以看到是沒有值的,而 &str 取的是該變量在棧空間的內存地址 0x7fffffffe368,這不是一回事,這是該變量的值。 再次執行,創建堆內存,代碼停留在第 12 行 free(str) 打印 str 得到 0x7ffff720c010 這時候堆內存已分配成功。 現在讓我們做釋放操作,代碼停留在 14 行,打印 str 可以看到值已被釋放。 本文也是筆者在之前學習過程中的總結,近期又稍微整理下,發出來也是希望能與大家共同的分享、交流。 通過本文,幾個常見的知識點:棧與堆的區別、為什么遞歸會造成棧溢出,類似于這種常見的問題,希望讀者朋友能夠掌握。數據段
棧段
查看函數堆棧
棧溢出
遞歸造成的棧溢出
字符數組造成的棧溢出
堆段
總結