Docker內核技術原理之Mount Namespace
上一篇文章介紹了UTS Namespace,容器里面每個容器都可以單獨掛載存儲,這就需要掛載隔離。Mount Namespace是Linux最早支持的命名空間,支持在不同的Namespace中可以看到不同的掛載視圖。
我們可以通過unshare分離出一個新的掛載空間,然后在這個新的mount空間內將/usr/bin目錄掛載到/mnt目錄下面,當exit退回后,mount失效了。如下所示。
- # unshare --mount
- # mount --bind /usr/bin/ /mnt/
- # ls /mnt/cp
- /mnt/cp
- # exit
- # ls /mnt/cp
- ls: 無法訪問'/mnt/cp': 沒有那個文件或目錄
其實,unshare --mount的本質就是clone的時候指定flag為CLONE_NEWNS,后續Demo原理類似。
內核原理
要理解Mount Namespace必須先了解mount原理,mount可以將一個文件系統掛載到另外一個文件系統下面。下圖是將一個文件系統掛載到根文件系統的”/home“路徑下面,mount的關系通過一個內核結構體 mount標識,mount結構體中核心的就是mnt_mountpoint指向掛載的目標路徑,在圖中就是根文件系統的/home路徑。
上圖中home有兩個dentry,一個是根文件系統下的dentry,它是目標掛載點,另外一個dentry是被掛載文件系統的dentry。譬如將一個掛載盤格式EXT4文件系統,那么這個dentry就掛載盤的根文件系統dentry。通過mount struct就可以將外部文件系統掛載到根文件系統上面。
每個mount struct里面都有一個mnt_namespace,它是一個指向掛載命令空間的指針,之前命名空間概述文章中介紹的ns_proxy也是指向這個mnt_namespace。這樣進程和它的掛載空間就可以關聯起來了。
Mount Namespace還有一個特殊的地方就是掛載傳播(mount propagation),掛載傳播是指由一個掛載對象的狀態變化導致的其它掛載對象的掛載與解除掛載動作的事件。針對容器這個場景就是,如果Docker內執行了一次掛載后,宿主機上是否能看到這個掛載,反過來,如果宿主機執行了某個掛載,容器內是否能看見。常見的有三種掛載方式:
共享關系(share relationship),如果兩個掛載對象具有共享關系,那么一個掛載對象中的掛載事件會傳播到另一個掛載對象,反之亦然。也就是說容器和宿主機的掛載會互相可見。
從屬關系(slave relationship),如果兩個掛載對象形成從屬關系,那么一個掛載對象中的掛載事件會傳播到另一個掛載對象,但是反過來不行;在這種關系中,從屬對象是事件的接收者。也就是說主機掛載容器可見,反過來不行。
私有關系(private relationship),之間互相不傳播,相互獨立。也就是說相互不可見。
實戰DEMO
在上面的程序中添加CLONE_NEWNS便可以創建一個新的Mount Namespace。代碼還是基于之前PID的代碼,加上CLONE_NEWNS。
- package main
- import (
- "fmt"
- "os"
- "os/exec"
- "syscall"
- )
- func main() {
- cmd := exec.Command("/bin/sh")
- cmd.Stdin = os.Stdin
- cmd.Stdout = os.Stdout
- cmd.Stderr = os.Stderr
- cmd.Env = []string{"PS1=-[ns-process]- # "}
- cmd.SysProcAttr = &syscall.SysProcAttr{
- Cloneflags: syscall.CLONE_NEWUTS | syscall.CLONE_NEWPID | syscall.CLONE_NEWNS,
- }
- if err := cmd.Run(); err != nil {
- fmt.Printf("Error running the /bin/sh command - %s\n", err)
- os.Exit(1)
- }
- }
通過go run 直接運行后,執行文章最開始unshare的Demo。你會發現
因為默認情況下掛載傳播是share共享,所以當我們在新的Mount Namespace執行掛載后,也會傳播到主機上面。我們可以在主機上面先將根目錄調整到私有掛載,這樣容器內的掛載就不會傳播到主機上面了。
- # mount --make-rprivate /
上面的Demo也可以正常運行了。