圖解 | Linux進程通信之管道實現

作者： songsong001 2021-09-30 10:45:33

系統 Linux

處于安全的考慮，不同進程之間的內存空間是相互隔離的，也就是說進程A 是不能訪問進程B 的內存空間，反之亦然。如果不同進程間能夠相互訪問和修改對方的內存，那么當前進程的內存就有可能被其他進程非法修改，從而導致安全隱患。

本文轉載自微信公眾號「Linux內核那些事」，作者songsong001 。轉載本文請聯系Linux內核那些事公眾號。

不同的進程就像是大海上孤立的島嶼，它們之間不能直接相互通信，如下圖所示：

但某些場景下，不同進程間需要相互通信，比如：進程A 負責處理用戶的請求，而進程B 負責保存處理后的數據。那么當進程A 處理完請求后，就需要把處理后的數據提交給進程B 進行存儲。此時，進程A 就需要與進程B 進行通信。如下圖所示：

由于不同進程間是相互隔離的，所以必須借助內核來作為橋梁來進行相互通信，內核相當于島嶼之間的輪船，如下圖所示：

內核提供多種進程間通信的方式，如：共享內存，信號，消息隊列和管道(pipe) 等。本文主要介紹管道的原理與實現。

一、管道的使用

管道一般用于父子進程之間相互通信，一般的用法如下：

父進程使用 pipe 系統調用創建一個管道。
然后父進程使用 fork 系統調用創建一個子進程。
由于子進程會繼承父進程打開的文件句柄，所以父子進程可以通過新創建的管道進行通信。

其原理如下圖所示：

由于管道分為讀端和寫端，所以需要兩個文件描述符來管理管道：fd[0] 為讀端，fd[1] 為寫端。

下面代碼介紹了怎么使用 pipe 系統調用來創建一個管道：

#include <stdio.h> 
#include <unistd.h> 
#include <sys/types.h> 
#include <stdlib.h> 
#include <string.h> 
 
int main() 
{ 
    int ret = -1; 
    int fd[2];  // 用于管理管道的文件描述符 
    pid_t pid; 
    char buf[512] = {0}; 
    char *msg = "hello world"; 
 
    // 創建一個管理 
    ret = pipe(fd); 
    if (-1 == ret) { 
        printf("failed to create pipe\n"); 
        return -1; 
    } 
   
    pid = fork();     // 創建子進程 
 
    if (0 == pid) {   // 子進程 
        close(fd[0]); // 關閉管道的讀端 
        ret = write(fd[1], msg, strlen(msg)); // 向管道寫端寫入數據 
        exit(0); 
    } else {          // 父進程 
        close(fd[1]); // 關閉管道的寫端 
        ret = read(fd[0], buf, sizeof(buf)); // 從管道的讀端讀取數據 
        printf("parent read %d bytes data: %s\n", ret, buf); 
    } 
 
    return 0; 
}

編譯代碼：

[root@localhost pipe]# gcc -g pipe.c -o pipe

運行代碼，輸出結果如下：

[root@localhost pipe]# ./pipe 
parent read 11 bytes data: hello world

二、管道的實現

每個進程的用戶空間都是獨立的，但內核空間卻是共用的。所以，進程間通信必須由內核提供服務。前面介紹了管道(pipe) 的使用，接下來將會介紹管道在內核中的實現方式。

本文使用 Linux-2.6.23 內核作為分析對象。

1. 環形緩沖區(Ring Buffer)

在內核中，管道使用了環形緩沖區來存儲數據。環形緩沖區的原理是：把一個緩沖區當成是首尾相連的環，其中通過讀指針和寫指針來記錄讀操作和寫操作位置。如下圖所示：

在 Linux 內核中，使用了 16 個內存頁作為環形緩沖區，所以這個環形緩沖區的大小為 64KB(16 * 4KB)。

當向管道寫數據時，從寫指針指向的位置開始寫入，并且將寫指針向前移動。而從管道讀取數據時，從讀指針開始讀入，并且將讀指針向前移動。當對沒有數據可讀的管道進行讀操作，將會阻塞當前進程。而對沒有空閑空間的管道進行寫操作，也會阻塞當前進程。

注意：可以將管道文件描述符設置為非阻塞，這樣對管道進行讀寫操作時，就不會阻塞當前進程。

2. 管道對象

在 Linux 內核中，管道使用 pipe_inode_info 對象來進行管理。我們先來看看 pipe_inode_info 對象的定義，如下所示：

struct pipe_inode_info { 
    wait_queue_head_t wait; 
    unsigned int nrbufs, 
    unsigned int curbuf; 
    ... 
    unsigned int readers; 
    unsigned int writers; 
    unsigned int waiting_writers; 
    ... 
    struct inode *inode; 
    struct pipe_buffer bufs[16]; 
};

下面介紹一下 pipe_inode_info 對象各個字段的作用：

wait：等待隊列，用于存儲正在等待管道可讀或者可寫的進程。
bufs：環形緩沖區，由 16 個 pipe_buffer 對象組成，每個 pipe_buffer 對象擁有一個內存頁，后面會介紹。
nrbufs：表示未讀數據已經占用了環形緩沖區的多少個內存頁。
curbuf：表示當前正在讀取環形緩沖區的哪個內存頁中的數據。
readers：表示正在讀取管道的進程數。
writers：表示正在寫入管道的進程數。
waiting_writers：表示等待管道可寫的進程數。
inode：與管道關聯的 inode 對象。

由于環形緩沖區是由 16 個 pipe_buffer 對象組成，所以下面我們來看看 pipe_buffer 對象的定義：

struct pipe_buffer { 
    struct page *page; 
    unsigned int offset; 
    unsigned int len; 
    ... 
};

下面介紹一下 pipe_buffer 對象各個字段的作用：

page：指向 pipe_buffer 對象占用的內存頁。
offset：如果進程正在讀取當前內存頁的數據，那么 offset 指向正在讀取當前內存頁的偏移量。
len：表示當前內存頁擁有未讀數據的長度。
下圖展示了 pipe_inode_info 對象與 pipe_buffer 對象的關系：

管道的環形緩沖區實現方式與經典的環形緩沖區實現方式有點區別，經典的環形緩沖區一般先申請一塊地址連續的內存塊，然后通過讀指針與寫指針來對讀操作與寫操作進行定位。

但為了減少對內存的使用，內核不會在創建管道時就申請 64K 的內存塊，而是在進程向管道寫入數據時，按需來申請內存。

那么當進程從管道讀取數據時，內核怎么處理呢?下面我們來看看管道讀操作的實現方式。

3. 讀操作

從經典的環形緩沖區中讀取數據時，首先通過讀指針來定位到讀取數據的起始地址，然后判斷環形緩沖區中是否有數據可讀，如果有就從環形緩沖區中讀取數據到用戶空間的緩沖區中。如下圖所示：

而管道的環形緩沖區與經典的環形緩沖區實現稍有不同，管道的環形緩沖區其讀指針是由 pipe_inode_info 對象的 curbuf 字段與 pipe_buffer 對象的 offset 字段組合而成：

pipe_inode_info 對象的 curbuf 字段表示讀操作要從 bufs 數組的哪個 pipe_buffer 中讀取數據。
pipe_buffer 對象的 offset 字段表示讀操作要從內存頁的哪個位置開始讀取數據。

讀取數據的過程如下圖所示：

從緩沖區中讀取到 n 個字節的數據后，會相應移動讀指針 n 個字節的位置(也就是增加 pipe_buffer 對象的 offset 字段)，并且減少 n 個字節的可讀數據長度(也就是減少 pipe_buffer 對象的 len 字段)。

當 pipe_buffer 對象的 len 字段變為 0 時，表示當前 pipe_buffer 沒有可讀數據，那么將會對 pipe_inode_info 對象的 curbuf 字段移動一個位置，并且其 nrbufs 字段進行減一操作。

我們來看看管道讀操作的代碼實現，讀操作由 pipe_read 函數完成。為了突出重點，我們只列出關鍵代碼，如下所示：

static ssize_t 
pipe_read(struct kiocb *iocb, const struct iovec *_iov, unsigned long nr_segs, 
          loff_t pos) 
{ 
    ... 
    struct pipe_inode_info *pipe; 
 
    // 1. 獲取管道對象 
    pipe = inode->i_pipe; 
 
    for (;;) { 
        // 2. 獲取管道未讀數據占有多少個內存頁 
        int bufs = pipe->nrbufs; 
 
        if (bufs) { 
            // 3. 獲取讀操作應該從環形緩沖區的哪個內存頁處讀取數據 
            int curbuf = pipe->curbuf;   
            struct pipe_buffer *buf = pipe->bufs + curbuf; 
            ... 
 
            /* 4. 通過 pipe_buffer 的 offset 字段獲取真正的讀指針, 
             *    并且從管道中讀取數據到用戶緩沖區. 
             */ 
            error = pipe_iov_copy_to_user(iov, addr + buf->offset, chars, atomic); 
            ... 
 
            ret += chars; 
            buf->offset += chars; // 增加 pipe_buffer 對象的 offset 字段的值 
            buf->len -= chars;    // 減少 pipe_buffer 對象的 len 字段的值 
 
            /* 5. 如果當前內存頁的數據已經被讀取完畢 */ 
            if (!buf->len) { 
                ... 
                curbuf = (curbuf + 1) & (PIPE_BUFFERS - 1); 
                pipe->curbuf = curbuf; // 移動 pipe_inode_info 對象的 curbuf 指針 
                pipe->nrbufs = --bufs; // 減少 pipe_inode_info 對象的 nrbufs 字段 
                do_wakeup = 1; 
            } 
 
            total_len -= chars; 
 
            // 6. 如果讀取到用戶期望的數據長度, 退出循環 
            if (!total_len) 
                break; 
        } 
        ... 
    } 
 
    ... 
    return ret; 
}

上面代碼總結來說分為以下步驟：

通過文件 inode 對象來獲取到管道的 pipe_inode_info 對象。
通過 pipe_inode_info 對象的 nrbufs 字段獲取管道未讀數據占有多少個內存頁。
通過 pipe_inode_info 對象的 curbuf 字段獲取讀操作應該從環形緩沖區的哪個內存頁處讀取數據。
通過 pipe_buffer 對象的 offset 字段獲取真正的讀指針，并且從管道中讀取數據到用戶緩沖區。
如果當前內存頁的數據已經被讀取完畢，那么移動 pipe_inode_info 對象的 curbuf 指針，并且減少其 nrbufs 字段的值。
如果讀取到用戶期望的數據長度，退出循環。

4. 寫操作

分析完管道讀操作的實現后，接下來，我們分析一下管道寫操作的實現。

經典的環形緩沖區寫入數據時，首先通過寫指針進行定位要寫入的內存地址，然后判斷環形緩沖區的空間是否足夠，足夠就把數據寫入到環形緩沖區中。如下圖所示：

但管道的環形緩沖區并沒有保存寫指針，而是通過讀指針計算出來。那么怎么通過讀指針計算出寫指針呢?

其實很簡單，就是：

寫指針 = 讀指針 + 未讀數據長度

下面我們來看看，向管道寫入 200 字節數據的過程示意圖，如下所示：

如上圖所示，向管道寫入數據時：

首先通過 pipe_inode_info 的 curbuf 字段和 nrbufs 字段來定位到，應該向哪個 pipe_buffer 寫入數據。
然后再通過 pipe_buffer 對象的 offset 字段和 len 字段來定位到，應該寫入到內存頁的哪個位置。

下面我們通過源碼來分析，寫操作是怎么實現的，代碼如下(為了特出重點，代碼有所刪減)：

static ssize_t 
pipe_write(struct kiocb *iocb, const struct iovec *_iov, unsigned long nr_segs, 
           loff_t ppos) 
{ 
    ... 
    struct pipe_inode_info *pipe; 
    ... 
    pipe = inode->i_pipe; 
    ... 
    chars = total_len & (PAGE_SIZE - 1); /* size of the last buffer */ 
 
    // 1. 如果最后寫入的 pipe_buffer 還有空閑的空間 
    if (pipe->nrbufs && chars != 0) { 
        // 獲取寫入數據的位置 
        int lastbuf = (pipe->curbuf + pipe->nrbufs - 1) & (PIPE_BUFFERS-1); 
        struct pipe_buffer *buf = pipe->bufs + lastbuf; 
        const struct pipe_buf_operations *ops = buf->ops; 
        int offset = buf->offset + buf->len; 
 
        if (ops->can_merge && offset + chars <= PAGE_SIZE) { 
            ... 
            error = pipe_iov_copy_from_user(offset + addr, iov, chars, atomic); 
            ... 
            buf->len += chars; 
            total_len -= chars; 
            ret = chars; 
 
            // 如果要寫入的數據已經全部寫入成功, 退出循環 
            if (!total_len) 
                goto out; 
        } 
    } 
 
    // 2. 如果最后寫入的 pipe_buffer 空閑空間不足, 那么申請一個新的內存頁來存儲數據 
    for (;;) { 
        int bufs; 
        ... 
        bufs = pipe->nrbufs; 
 
        if (bufs < PIPE_BUFFERS) { 
            int newbuf = (pipe->curbuf + bufs) & (PIPE_BUFFERS-1); 
            struct pipe_buffer *buf = pipe->bufs + newbuf; 
            ... 
 
            // 申請一個新的內存頁 
            if (!page) { 
                page = alloc_page(GFP_HIGHUSER); 
                ... 
            } 
            ... 
            error = pipe_iov_copy_from_user(src, iov, chars, atomic); 
            ... 
            ret += chars; 
 
            buf->page = page; 
            buf->ops = &anon_pipe_buf_ops; 
            buf->offset = 0; 
            buf->len = chars; 
 
            pipe->nrbufs = ++bufs; 
            pipe->tmp_page = NULL; 
 
            // 如果要寫入的數據已經全部寫入成功, 退出循環 
            total_len -= chars; 
            if (!total_len) 
                break; 
        } 
        ... 
    } 
 
out: 
    ... 
    return ret; 
}

上面代碼有點長，但是邏輯卻很簡單，主要進行如下操作：

如果上次寫操作寫入的 pipe_buffer 還有空閑的空間，那么就將數據寫入到此 pipe_buffer 中，并且增加其 len 字段的值。

如果上次寫操作寫入的 pipe_buffer 沒有足夠的空閑空間，那么就新申請一個內存頁，并且把數據保存到新的內存頁中，并且增加 pipe_inode_info 的 nrbufs 字段的值。

如果寫入的數據已經全部寫入成功，那么就退出寫操作。

三、思考一下

管道讀寫操作的實現已經分析完畢，現在我們來思考一下以下問題。

1. 為什么父子進程可以通過管道來通信?

這是因為父子進程通過 pipe 系統調用打開的管道，在內核空間中指向同一個管道對象(pipe_inode_info)。所以父子進程共享著同一個管道對象，那么就可以通過這個共享的管道對象進行通信。

2. 為什么內核要使用 16 個內存頁進行數據存儲?

這是為了減少內存使用。

因為使用 pipe 系統調用打開管道時，并沒有立刻申請內存頁，而是當有進程向管道寫入數據時，才會按需申請內存頁。當內存頁的數據被讀取完后，內核會將此內存頁回收，來減少管道對內存的使用。

責任編輯：武曉燕來源： Linux內核那些事

Linux 進程通信

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖解 | Linux進程通信之管道實現

一、管道的使用

二、管道的實現

三、思考一下