5分鐘快速了解Docker的底層原理
本文轉(zhuǎn)載自微信公眾號(hào)「小姐姐味道」,作者小姐姐養(yǎng)的狗 。轉(zhuǎn)載本文請(qǐng)聯(lián)系小姐姐味道公眾號(hào)。
一位同學(xué)曾給我打比方:宿主機(jī)就好比一間大房子,docker把它成了N個(gè)小隔斷。在這些小隔斷之間,有獨(dú)立的衛(wèi)生間、小床、電視...
麻雀雖小,五臟俱全,這個(gè)比喻非常的貼切。Linux提供了非常全面的隔離機(jī)制,使得每個(gè)小隔間互不影響。即使隔壁小間滿室春光,我的小房間一樣的冷清,對(duì)我毫無(wú)影響。
Docker能實(shí)現(xiàn)這些功能,依賴于chroot、namespace、cgroup等三種老技術(shù)。我們本篇文章,就先聊一下namespace方面的東西。畢竟隔離是容器的第一要素。
Linux的內(nèi)核,提供了多達(dá)8種類型的Namespace。在這些獨(dú)立的Namespace中,資源互不影響,隔離措施做的非常好。
1. 8種類型
我們先來(lái)看一下,Linux都支持哪些Namespace。可以通過(guò)unshare命令來(lái)觀察到這些細(xì)節(jié)。在終端執(zhí)行man unshare,將會(huì)出現(xiàn)這些Namespace的介紹。
- Mount(mnt) 隔離掛載點(diǎn)
- Process ID (pid) 隔離進(jìn)程 ID
- Network (net) 隔離網(wǎng)絡(luò)設(shè)備,端口號(hào)等
- Interprocess Communication (ipc) 隔離 System V IPC 和 POSIX message queues
- UTS Namespace(uts) 隔離主機(jī)名和域名
- User Namespace (user) 隔離用戶和用戶組
另外,Linux在4.6版本,5.6版本,分別加入了cgroups和Time兩種隔離類型,加起來(lái)就有8種。
- Control group (cgroup) Namespace 隔離 Cgroups 根目錄 (4.6版本加入)
- Time Namespace 隔離系統(tǒng)時(shí)間 (5.6版本加入)
2. 1個(gè)例子
通過(guò)unshare命令,可以快速建立一些隔離的例子,我們拿最簡(jiǎn)單直觀的pid namespace來(lái)看一下它的效果。
眾所周知,Linux進(jìn)程號(hào)為1的,叫做systemd進(jìn)程。但在Docker中,我們通過(guò)執(zhí)行ps命令,卻只能看到非常少的進(jìn)程列表。
執(zhí)行下面的命令,進(jìn)入隔離環(huán)境,并將bash作為根進(jìn)程:
- unshare --pid --fork --mount-proc /bin/bash
效果如圖所示。可以看到,我們的bash,已經(jīng)成為了1號(hào)進(jìn)程,而宿主機(jī)和其他隔離環(huán)境的進(jìn)程信息,在這里是不可見的。
先在隔離環(huán)境中,執(zhí)行sleep 1000。再開一個(gè)終端,在宿主機(jī)上執(zhí)行pstree,我們將會(huì)看到這個(gè)隔離環(huán)境的進(jìn)行信息。
接下來(lái),在宿主機(jī)上,把sleep對(duì)應(yīng)進(jìn)程的命名空間信息,和宿主機(jī)的命名空間信息作一下對(duì)比。可以看到,它們的pid namespace,對(duì)應(yīng)的數(shù)值是不同的。
下面給出其他namespace的實(shí)驗(yàn)性命令,你可以實(shí)際操作一下。
3. 試驗(yàn)一下
- unshare --mount --fork /bin/bash
創(chuàng)建mount namespace,并在每個(gè)不同的環(huán)境中,使用不同的掛載目錄。
- unshare --uts --fork /bin/bash
uts可以用來(lái)隔離主機(jī)名稱,允許每個(gè)namespace擁有一個(gè)獨(dú)立的主機(jī)名,你可以通過(guò)hostname命令進(jìn)行修改。
- unshare --ipc --fork /bin/bash
IPC Namespace 主要是用來(lái)隔離進(jìn)程間通信的。Linux的進(jìn)程間通信,有管道、信號(hào)、報(bào)文、共享內(nèi)存、信號(hào)量、套接口等方式。使用了IPC命名空間,意味著跨Namespace的這些通信方式將全部失效!不過(guò),這也正是我們所希望的到的。
- unshare --user -r /bin/bash
用戶命名空間,就非常好理解了。我們可以在一個(gè)Namespace中建立xjjdog賬號(hào),也可以在另外一個(gè)Namespace中建立xjjdog賬號(hào),而且它們是相互不影響的。
- unshare --net --fork /bin/bash
net namespace,這個(gè)就非常有用了。它可以用來(lái)隔離網(wǎng)絡(luò)設(shè)備、IP 地址和端口等信息。
可以看到,通過(guò)各種Namespace,Linux能夠?qū)Ω鞣N資源進(jìn)行精細(xì)化的隔離。Docker本身也是一個(gè)新瓶裝舊酒的玩具。Docker的創(chuàng)新之處,在于它加入了一個(gè)中央倉(cāng)庫(kù),并封裝了很多易用的命令。
你可能會(huì)發(fā)現(xiàn),到目前為止,我們并沒(méi)有對(duì)Cpu和內(nèi)存的資源使用進(jìn)行隔離,也沒(méi)有對(duì)應(yīng)的Namespace來(lái)解決這些問(wèn)題。
資源限制的功能,是使用Cgroups進(jìn)行限額配置來(lái)完成的,和Namespace沒(méi)什么關(guān)系。我們將在后面的文章,介紹Cgroups這項(xiàng)技術(shù)。
最后,附上Docker的一張生命周期圖。來(lái)源(http://docker-saigon.github.io/post/Docker-Internals/ )。有需要的同學(xué)可以加我的好友獲取。
Docker發(fā)展到現(xiàn)在,應(yīng)用工具鏈已經(jīng)非常成熟了,很多同學(xué)已經(jīng)駕輕就熟,如果你對(duì)容器技術(shù)非常感興趣,不如多看一下最底層的原理。這樣,不管是谷歌推自己的容器,還是繼續(xù)使用docker,都能快速把它掌握。
作者簡(jiǎn)介:小姐姐味道 (xjjdog),一個(gè)不允許程序員走彎路的公眾號(hào)。聚焦基礎(chǔ)架構(gòu)和Linux。十年架構(gòu),日百億流量,與你探討高并發(fā)世界,給你不一樣的味道。我的個(gè)人微信xjjdog0,歡迎添加好友,進(jìn)一步交流。