圖解內(nèi)存匿名反向映射Reverse Mapping
反向映射的目的是為了找到所有映射到某一個頁面的頁表項,從而可以對目標頁做一些操作,比如切斷映射。
反向映射一直是一個非常神奇的存在,今天我們就好好探索一下這個知識點。
創(chuàng)建
在反向匿名映射中除了page struct,一共有三個相關的數(shù)據(jù)結(jié)構(gòu):
- vm_area_struct
- anon_vma
- anon_vma_chain
第一個數(shù)據(jù)結(jié)構(gòu)我們已經(jīng)見過了,是一個老朋友。而后兩者就是為了構(gòu)造反向匿名映射而新生的。我們先來看看這兩個新的數(shù)據(jù)結(jié)構(gòu)的樣子。
anon_vma
- anon_vma
- +----------------------------+
- |root | = self
- |parent | = self
- | (struct anon_vma*) |
- |refcount | = 1
- | (atomic_t) |
- |degree | = 1
- | (unsigned) |
- +----------------------------+
這個結(jié)構(gòu)由anon_vma_alloc()函數(shù)統(tǒng)一生成,上圖中也顯示了創(chuàng)造出來時候的樣子。從這里看,也就是個帶有上下級關系的這么一個結(jié)構(gòu)。
anon_vma_chain
- anon_vma_chain
- +----------------------------+
- |vma |
- | (struct vm_area_struct*)|
- |anon_vma |
- | (struct anon_vma*) |
- | |
- |rb |
- | (struct rb_node) |
- |same_vma |
- | (struct list_head) |
- +----------------------------+
這個結(jié)構(gòu)由anon_vma_chain_alloc()統(tǒng)一創(chuàng)建,貌似創(chuàng)建完了也不需要初始化,拿來后面就直接用了。
組合
到這里,大家應該感覺怪怪的,都不知道這些東西是個啥。別急,我把這些東西組合起來,可能你就會有一些感覺了。
在這里,我們把這三個重要的數(shù)據(jù)結(jié)構(gòu)之間的組合關系展現(xiàn)給大家。當然這只是最簡單的組合關系,目的是為了讓大家能有一個感性的認識。
- anon_vma_chain鏈接了anon_vma和vma
- vma則會有指針指向自己的anon_vma
空口無憑,眼見為實。那為什么會長成這樣的呢?接下來我們就來看看在內(nèi)核中我們是如何將這些數(shù)據(jù)結(jié)構(gòu)鏈接起來的。
鏈接
上一節(jié)的最后,我們看到了三個重要的數(shù)據(jù)結(jié)構(gòu)通過鏈表和樹連接在了一起,這一節(jié)我們就來看看他們是怎么連接起來的。
anon_vma_chain_link
往簡單了講,要連接這三個重要的數(shù)據(jù)結(jié)構(gòu),都靠一個函數(shù):anon_vma_chain_link(vma, avc, anon_vma)。而這個函數(shù)本身簡單到令人發(fā)指,以至于我能把整個定義給大家展示出來。
- static void anon_vma_chain_link(struct vm_area_struct *vma,
- struct anon_vma_chain *avc,
- struct anon_vma *anon_vma)
- {
- avc->vma = vma;
- avc->anon_vma = anon_vma;
- list_add(&avc->same_vma, &vma->anon_vma_chain);
- anon_vma_interval_tree_insert(avc, &anon_vma->rb_root);
- }
你對照這上面的圖一看,和圖上顯示的一摸一樣沒有任何多余的步驟。
但是,關鍵的但是來了,如果你以為一切就這這么簡單,那就too young too simple了啊。
接下來我們將從anon_vma_chain_link函數(shù)被調(diào)用的關系入手,去看看在實際運行中究竟會演化出什么樣的變化來。
do_anonymous_page
首先出場的是函數(shù)do_anonymous_page,這個函數(shù)是在匿名頁缺頁中斷時會調(diào)用的函數(shù)。
- do_anonymous_page(vmf)
- __anon_vma_prepare(vma)
- avc = anon_vma_chain_alloc()
- anon_vma = find_mergeable_anon_vma(vma)
- anon_vma = anon_vma_alloc()
- vma->anon_vma = anon_vma
- anon_vma_chain_link(vma, avc, anon_vma)
從上面的流程可以看出,當發(fā)生缺頁中斷時,內(nèi)核會給對應的vma構(gòu)造anon_vma,并且利用avc去鏈接這兩者。這種可以說是系統(tǒng)中最簡單的例子,也是上圖中顯示的情況。
細心的人可能已經(jīng)看到了,上面有一種情況是find_mergeable_anon_vma。如果這個函數(shù)返回一個可以重用的anon_vma,那么內(nèi)核就可以利用原有的anon_vma了。此時這個圖我們可以畫成這樣。
- ....................... *************************
- . . * *
- av v avc v v vma v
- +-----------+ +-------------+ +-------------+
- | |<------------|anon_vma vma|------------>| |
- | |<- | | | |
- +-----------+ \ +-------------+ +-------------+
- ^ ^ ^ ^
- . \ . * *
- . . *************************
- . \ .
- . .
- . \ . *************************
- . . * *
- . \ avc v v vma v
- . +-------------+ +-------------+
- . ------|anon_vma vma|------------>| |
- . | | | |
- . +-------------+ +-------------+
- . ^ ^ ^
- . . * *
- ....................... *************************
其實此處我畫得不夠精確,av 和 avc之間應當是樹的關系,而不是現(xiàn)在顯示的鏈表的關系。但是我想意思已經(jīng)表達清楚,即在一個進程中多個vma可以共享同一個anon_vma作為匿名映射的節(jié)點。
anon_vma_fork
看過了在單個進程中的情況,接下來我們來看看創(chuàng)建一個子進程時如何調(diào)整這個數(shù)據(jù)結(jié)構(gòu)。這個過程由anon_vma_fork處理。
- anon_vma_fork(vma, pvma)
- anon_vma_clone(vma, pvma)
- anon_vma = anon_vma_alloc()
- avc = anon_vma_chain_alloc()
- anon_vma->root = pvma->anon_vma->root
- anon_vma->parent = pvma->anon_vma
- vma->anon_vma = anon_vma
- anon_vma_chain_link(vma, avc, anon_vma)
這個函數(shù)很有意思,我還真是花了些時間去理解它。最開始有點看不清,所以我干脆退回到最簡單的狀態(tài),也就是當前進程是根進程的時候。此時我才大致的了解了一點fork時究竟發(fā)生了什么。
話不多說,還是用一個圖來表達
- ....................... *************************
- . . * *
- av v avc v v vma v
- +-----------+ +-------------+ +-------------+
- P | |<------------|anon_vma vma|------------>| |
- | |<----+ | | | |
- +-----------+ \ +-------------+ +-------------+
- ^ ^ ^ ^
- . \ . * *
- . . *************************
- . \ .
- . .
- . \ .
- . .
- . \ . *************************
- . . * *
- . \ avc v v *
- . +-------------+ *
- . \|anon_vma vma|\ *
- . | | *
- . +-------------+ \ *
- . ^ ^ *
- . . * \ *
- ...................... * *
- * \ *
- * *
- * \ *
- ....................... * *
- . . * \ *
- av v avc v v \ vma v
- +-----------+ +-------------+ >+-------------+
- C1 | |<------------|anon_vma vma|------------>| |
- | | | | | |
- +-----------+ +-------------+ +-------------+
- ^ ^ ^ ^
- . . * *
- ....................... *************************
P是父進程,C1是他的一個子進程。當發(fā)生fork時,page->mapping沒有發(fā)生改變,所以依然需要能夠從父進程的anon_vma上搜索到對應的頁表。此時就得在父進程的rb_root樹中保留一個子進程的avc。同時子進程又擁有自己的一套anon_vma。
可以說這個真的是非常有意思的。
對了,代碼中還有一個函數(shù)anon_vma_clone,在這里我就不展開了。留給大家下來思考一下下。
使用
好了,到了這里我們已經(jīng)擁有了一個非常強悍的武器 – 匿名反向映射。有了他我們就可以指哪打哪了。
內(nèi)核也已經(jīng)給我們準備好了扣動這個核武器的板機 – rmap_walk_anon。
- rmap_walk_anon(page, rwc, true/false)
- anon_vma = page_anon_vma(page), get anon_vma from page->mapping
- pgoff_start = page_to_pgoff(page);
- return page_to_index(page)
- pgoff_end = pgoff_start + hpage_nr_pages(page) - 1;
- anon_vma_interval_tree_foreach(avc, &anon_vma->rb_root, pgoff_start, pgoff_end)
- rwc->rmap_one(page, vma, address, rwc->arg) -> do the real work
有了上面的基礎知識,我想看這段代碼就不難了。還記得上面看到過的那個rb_root么?對了,我們就是沿著這顆紅黑樹找到的vma,然后再找到了頁表。
嗯,一切都感覺這么的完美。
本文轉(zhuǎn)載自微信公眾號「Linux閱碼場」,可以通過以下二維碼關注。轉(zhuǎn)載本文請聯(lián)系Linux閱碼場公眾號。