圖解 | Linux進程通信之管道實現
本文轉載自微信公眾號「Linux內核那些事」,作者songsong001 。轉載本文請聯系Linux內核那些事公眾號。
處于安全的考慮,不同進程之間的內存空間是相互隔離的,也就是說 進程A 是不能訪問 進程B 的內存空間,反之亦然。如果不同進程間能夠相互訪問和修改對方的內存,那么當前進程的內存就有可能被其他進程非法修改,從而導致安全隱患。
不同的進程就像是大海上孤立的島嶼,它們之間不能直接相互通信,如下圖所示:
但某些場景下,不同進程間需要相互通信,比如:進程A 負責處理用戶的請求,而 進程B 負責保存處理后的數據。那么當 進程A 處理完請求后,就需要把處理后的數據提交給 進程B 進行存儲。此時,進程A 就需要與 進程B 進行通信。如下圖所示:
由于不同進程間是相互隔離的,所以必須借助內核來作為橋梁來進行相互通信,內核相當于島嶼之間的輪船,如下圖所示:
內核提供多種進程間通信的方式,如:共享內存,信號,消息隊列 和 管道(pipe) 等。本文主要介紹 管道 的原理與實現。
一、管道的使用
管道 一般用于父子進程之間相互通信,一般的用法如下:
- 父進程使用 pipe 系統調用創建一個管道。
- 然后父進程使用 fork 系統調用創建一個子進程。
- 由于子進程會繼承父進程打開的文件句柄,所以父子進程可以通過新創建的管道進行通信。
其原理如下圖所示:
由于管道分為讀端和寫端,所以需要兩個文件描述符來管理管道:fd[0] 為讀端,fd[1] 為寫端。
下面代碼介紹了怎么使用 pipe 系統調用來創建一個管道:
- #include <stdio.h>
- #include <unistd.h>
- #include <sys/types.h>
- #include <stdlib.h>
- #include <string.h>
- int main()
- {
- int ret = -1;
- int fd[2]; // 用于管理管道的文件描述符
- pid_t pid;
- char buf[512] = {0};
- char *msg = "hello world";
- // 創建一個管理
- ret = pipe(fd);
- if (-1 == ret) {
- printf("failed to create pipe\n");
- return -1;
- }
- pid = fork(); // 創建子進程
- if (0 == pid) { // 子進程
- close(fd[0]); // 關閉管道的讀端
- ret = write(fd[1], msg, strlen(msg)); // 向管道寫端寫入數據
- exit(0);
- } else { // 父進程
- close(fd[1]); // 關閉管道的寫端
- ret = read(fd[0], buf, sizeof(buf)); // 從管道的讀端讀取數據
- printf("parent read %d bytes data: %s\n", ret, buf);
- }
- return 0;
- }
編譯代碼:
- [root@localhost pipe]# gcc -g pipe.c -o pipe
運行代碼,輸出結果如下:
- [root@localhost pipe]# ./pipe
- parent read 11 bytes data: hello world
二、管道的實現
每個進程的用戶空間都是獨立的,但內核空間卻是共用的。所以,進程間通信必須由內核提供服務。前面介紹了 管道(pipe) 的使用,接下來將會介紹管道在內核中的實現方式。
本文使用 Linux-2.6.23 內核作為分析對象。
1. 環形緩沖區(Ring Buffer)
在內核中,管道 使用了環形緩沖區來存儲數據。環形緩沖區的原理是:把一個緩沖區當成是首尾相連的環,其中通過讀指針和寫指針來記錄讀操作和寫操作位置。如下圖所示:
在 Linux 內核中,使用了 16 個內存頁作為環形緩沖區,所以這個環形緩沖區的大小為 64KB(16 * 4KB)。
當向管道寫數據時,從寫指針指向的位置開始寫入,并且將寫指針向前移動。而從管道讀取數據時,從讀指針開始讀入,并且將讀指針向前移動。當對沒有數據可讀的管道進行讀操作,將會阻塞當前進程。而對沒有空閑空間的管道進行寫操作,也會阻塞當前進程。
注意:可以將管道文件描述符設置為非阻塞,這樣對管道進行讀寫操作時,就不會阻塞當前進程。
2. 管道對象
在 Linux 內核中,管道使用 pipe_inode_info 對象來進行管理。我們先來看看 pipe_inode_info 對象的定義,如下所示:
- struct pipe_inode_info {
- wait_queue_head_t wait;
- unsigned int nrbufs,
- unsigned int curbuf;
- ...
- unsigned int readers;
- unsigned int writers;
- unsigned int waiting_writers;
- ...
- struct inode *inode;
- struct pipe_buffer bufs[16];
- };
下面介紹一下 pipe_inode_info 對象各個字段的作用:
- wait:等待隊列,用于存儲正在等待管道可讀或者可寫的進程。
- bufs:環形緩沖區,由 16 個 pipe_buffer 對象組成,每個 pipe_buffer 對象擁有一個內存頁 ,后面會介紹。
- nrbufs:表示未讀數據已經占用了環形緩沖區的多少個內存頁。
- curbuf:表示當前正在讀取環形緩沖區的哪個內存頁中的數據。
- readers:表示正在讀取管道的進程數。
- writers:表示正在寫入管道的進程數。
- waiting_writers:表示等待管道可寫的進程數。
- inode:與管道關聯的 inode 對象。
由于環形緩沖區是由 16 個 pipe_buffer 對象組成,所以下面我們來看看 pipe_buffer 對象的定義:
- struct pipe_buffer {
- struct page *page;
- unsigned int offset;
- unsigned int len;
- ...
- };
下面介紹一下 pipe_buffer 對象各個字段的作用:
- page:指向 pipe_buffer 對象占用的內存頁。
- offset:如果進程正在讀取當前內存頁的數據,那么 offset 指向正在讀取當前內存頁的偏移量。
- len:表示當前內存頁擁有未讀數據的長度。
- 下圖展示了 pipe_inode_info 對象與 pipe_buffer 對象的關系:
管道的環形緩沖區實現方式與經典的環形緩沖區實現方式有點區別,經典的環形緩沖區一般先申請一塊地址連續的內存塊,然后通過讀指針與寫指針來對讀操作與寫操作進行定位。
但為了減少對內存的使用,內核不會在創建管道時就申請 64K 的內存塊,而是在進程向管道寫入數據時,按需來申請內存。
那么當進程從管道讀取數據時,內核怎么處理呢?下面我們來看看管道讀操作的實現方式。
3. 讀操作
從 經典的環形緩沖區 中讀取數據時,首先通過讀指針來定位到讀取數據的起始地址,然后判斷環形緩沖區中是否有數據可讀,如果有就從環形緩沖區中讀取數據到用戶空間的緩沖區中。如下圖所示:
而 管道的環形緩沖區 與 經典的環形緩沖區 實現稍有不同,管道的環形緩沖區 其讀指針是由 pipe_inode_info 對象的 curbuf 字段與 pipe_buffer 對象的 offset 字段組合而成:
- pipe_inode_info 對象的 curbuf 字段表示讀操作要從 bufs 數組的哪個 pipe_buffer 中讀取數據。
- pipe_buffer 對象的 offset 字段表示讀操作要從內存頁的哪個位置開始讀取數據。
讀取數據的過程如下圖所示:
從緩沖區中讀取到 n 個字節的數據后,會相應移動讀指針 n 個字節的位置(也就是增加 pipe_buffer 對象的 offset 字段),并且減少 n 個字節的可讀數據長度(也就是減少 pipe_buffer 對象的 len 字段)。
當 pipe_buffer 對象的 len 字段變為 0 時,表示當前 pipe_buffer 沒有可讀數據,那么將會對 pipe_inode_info 對象的 curbuf 字段移動一個位置,并且其 nrbufs 字段進行減一操作。
我們來看看管道讀操作的代碼實現,讀操作由 pipe_read 函數完成。為了突出重點,我們只列出關鍵代碼,如下所示:
- static ssize_t
- pipe_read(struct kiocb *iocb, const struct iovec *_iov, unsigned long nr_segs,
- loff_t pos)
- {
- ...
- struct pipe_inode_info *pipe;
- // 1. 獲取管道對象
- pipe = inode->i_pipe;
- for (;;) {
- // 2. 獲取管道未讀數據占有多少個內存頁
- int bufs = pipe->nrbufs;
- if (bufs) {
- // 3. 獲取讀操作應該從環形緩沖區的哪個內存頁處讀取數據
- int curbuf = pipe->curbuf;
- struct pipe_buffer *buf = pipe->bufs + curbuf;
- ...
- /* 4. 通過 pipe_buffer 的 offset 字段獲取真正的讀指針,
- * 并且從管道中讀取數據到用戶緩沖區.
- */
- error = pipe_iov_copy_to_user(iov, addr + buf->offset, chars, atomic);
- ...
- ret += chars;
- buf->offset += chars; // 增加 pipe_buffer 對象的 offset 字段的值
- buf->len -= chars; // 減少 pipe_buffer 對象的 len 字段的值
- /* 5. 如果當前內存頁的數據已經被讀取完畢 */
- if (!buf->len) {
- ...
- curbuf = (curbuf + 1) & (PIPE_BUFFERS - 1);
- pipe->curbuf = curbuf; // 移動 pipe_inode_info 對象的 curbuf 指針
- pipe->nrbufs = --bufs; // 減少 pipe_inode_info 對象的 nrbufs 字段
- do_wakeup = 1;
- }
- total_len -= chars;
- // 6. 如果讀取到用戶期望的數據長度, 退出循環
- if (!total_len)
- break;
- }
- ...
- }
- ...
- return ret;
- }
上面代碼總結來說分為以下步驟:
- 通過文件 inode 對象來獲取到管道的 pipe_inode_info 對象。
- 通過 pipe_inode_info 對象的 nrbufs 字段獲取管道未讀數據占有多少個內存頁。
- 通過 pipe_inode_info 對象的 curbuf 字段獲取讀操作應該從環形緩沖區的哪個內存頁處讀取數據。
- 通過 pipe_buffer 對象的 offset 字段獲取真正的讀指針, 并且從管道中讀取數據到用戶緩沖區。
- 如果當前內存頁的數據已經被讀取完畢,那么移動 pipe_inode_info 對象的 curbuf 指針,并且減少其 nrbufs 字段的值。
- 如果讀取到用戶期望的數據長度,退出循環。
4. 寫操作
分析完管道讀操作的實現后,接下來,我們分析一下管道寫操作的實現。
經典的環形緩沖區 寫入數據時,首先通過寫指針進行定位要寫入的內存地址,然后判斷環形緩沖區的空間是否足夠,足夠就把數據寫入到環形緩沖區中。如下圖所示:
但 管道的環形緩沖區 并沒有保存 寫指針,而是通過 讀指針 計算出來。那么怎么通過讀指針計算出寫指針呢?
其實很簡單,就是:
寫指針 = 讀指針 + 未讀數據長度
下面我們來看看,向管道寫入 200 字節數據的過程示意圖,如下所示:
如上圖所示,向管道寫入數據時:
- 首先通過 pipe_inode_info 的 curbuf 字段和 nrbufs 字段來定位到,應該向哪個 pipe_buffer 寫入數據。
- 然后再通過 pipe_buffer 對象的 offset 字段和 len 字段來定位到,應該寫入到內存頁的哪個位置。
下面我們通過源碼來分析,寫操作是怎么實現的,代碼如下(為了特出重點,代碼有所刪減):
- static ssize_t
- pipe_write(struct kiocb *iocb, const struct iovec *_iov, unsigned long nr_segs,
- loff_t ppos)
- {
- ...
- struct pipe_inode_info *pipe;
- ...
- pipe = inode->i_pipe;
- ...
- chars = total_len & (PAGE_SIZE - 1); /* size of the last buffer */
- // 1. 如果最后寫入的 pipe_buffer 還有空閑的空間
- if (pipe->nrbufs && chars != 0) {
- // 獲取寫入數據的位置
- int lastbuf = (pipe->curbuf + pipe->nrbufs - 1) & (PIPE_BUFFERS-1);
- struct pipe_buffer *buf = pipe->bufs + lastbuf;
- const struct pipe_buf_operations *ops = buf->ops;
- int offset = buf->offset + buf->len;
- if (ops->can_merge && offset + chars <= PAGE_SIZE) {
- ...
- error = pipe_iov_copy_from_user(offset + addr, iov, chars, atomic);
- ...
- buf->len += chars;
- total_len -= chars;
- ret = chars;
- // 如果要寫入的數據已經全部寫入成功, 退出循環
- if (!total_len)
- goto out;
- }
- }
- // 2. 如果最后寫入的 pipe_buffer 空閑空間不足, 那么申請一個新的內存頁來存儲數據
- for (;;) {
- int bufs;
- ...
- bufs = pipe->nrbufs;
- if (bufs < PIPE_BUFFERS) {
- int newbuf = (pipe->curbuf + bufs) & (PIPE_BUFFERS-1);
- struct pipe_buffer *buf = pipe->bufs + newbuf;
- ...
- // 申請一個新的內存頁
- if (!page) {
- page = alloc_page(GFP_HIGHUSER);
- ...
- }
- ...
- error = pipe_iov_copy_from_user(src, iov, chars, atomic);
- ...
- ret += chars;
- buf->page = page;
- buf->ops = &anon_pipe_buf_ops;
- buf->offset = 0;
- buf->len = chars;
- pipe->nrbufs = ++bufs;
- pipe->tmp_page = NULL;
- // 如果要寫入的數據已經全部寫入成功, 退出循環
- total_len -= chars;
- if (!total_len)
- break;
- }
- ...
- }
- out:
- ...
- return ret;
- }
上面代碼有點長,但是邏輯卻很簡單,主要進行如下操作:
如果上次寫操作寫入的 pipe_buffer 還有空閑的空間,那么就將數據寫入到此 pipe_buffer 中,并且增加其 len 字段的值。
如果上次寫操作寫入的 pipe_buffer 沒有足夠的空閑空間,那么就新申請一個內存頁,并且把數據保存到新的內存頁中,并且增加 pipe_inode_info 的 nrbufs 字段的值。
如果寫入的數據已經全部寫入成功,那么就退出寫操作。
三、思考一下
管道讀寫操作的實現已經分析完畢,現在我們來思考一下以下問題。
1. 為什么父子進程可以通過管道來通信?
這是因為父子進程通過 pipe 系統調用打開的管道,在內核空間中指向同一個管道對象(pipe_inode_info)。所以父子進程共享著同一個管道對象,那么就可以通過這個共享的管道對象進行通信。
2. 為什么內核要使用 16 個內存頁進行數據存儲?
這是為了減少內存使用。
因為使用 pipe 系統調用打開管道時,并沒有立刻申請內存頁,而是當有進程向管道寫入數據時,才會按需申請內存頁。當內存頁的數據被讀取完后,內核會將此內存頁回收,來減少管道對內存的使用。