IO模型 Select、Poll、Epoll，你知道哪個(gè)？

作者：郭春元 2025-01-07 00:07:17

應(yīng)用只需要向內(nèi)核發(fā)送一個(gè)讀取請求,告訴內(nèi)核它要讀取數(shù)據(jù)后即刻返回；內(nèi)核收到請求后會建立一個(gè)信號聯(lián)系，當(dāng)數(shù)據(jù)準(zhǔn)備就緒，內(nèi)核會主動把數(shù)據(jù)從內(nèi)核復(fù)制到用戶空間，等所有操作都完成之后，內(nèi)核會發(fā)起一個(gè)通知告訴應(yīng)用，我們稱這種模式為異步IO模型。

什么是IO？

IO中的I就是input，O就是output,IO模型即輸入輸出模型,而比較常聽說的便是磁盤IO,網(wǎng)絡(luò)IO。

什么是操作系統(tǒng)的IO?

我們?nèi)绻枰獙Υ疟P進(jìn)行讀取或者寫入數(shù)據(jù)的時(shí)候必須得有主體去操作，這個(gè)主體就是應(yīng)用程序。應(yīng)用程序是不能直接進(jìn)行一些讀寫操作(IO)的,因?yàn)橛脩艨赡軙么顺绦蛑苯踊蛘唛g接的對計(jì)算機(jī)造成破壞,只能交給底層軟件—操作系統(tǒng).也就是說應(yīng)用程序想要對磁盤進(jìn)行讀取或者寫入數(shù)據(jù),只能通過操作系統(tǒng)對上層開放的API來進(jìn)行。在任何一個(gè)應(yīng)用程序里面,都會有進(jìn)程地址空間,該空間分為兩部分,一部分稱為用戶空間(允許應(yīng)用程序進(jìn)行訪問的空間),另一部分稱為內(nèi)核空間（只能給操作系統(tǒng)進(jìn)行訪問的空間，它受到保護(hù)）。

應(yīng)用程序想要進(jìn)行一次IO操作分為兩個(gè)階段:

?IO調(diào)用：應(yīng)用程序進(jìn)程向操作系統(tǒng)內(nèi)核發(fā)起調(diào)用【1】。

?IO執(zhí)行：操作系統(tǒng)內(nèi)核完成IO操作【2】。

操作系統(tǒng)完成一次IO操作包括兩個(gè)過程:

?數(shù)據(jù)準(zhǔn)備階段：內(nèi)核等待I/O設(shè)備準(zhǔn)備好數(shù)據(jù)(從網(wǎng)卡copy到內(nèi)核緩沖區(qū)【3】。

?數(shù)據(jù)copy階段：將數(shù)據(jù)從內(nèi)核緩沖區(qū)copy到用戶進(jìn)程緩沖區(qū)【4】。

應(yīng)用程序一次I/O流程如下：

圖片

一個(gè)完整的IO過程包括以下幾個(gè)步驟：

1.應(yīng)用程序進(jìn)程向操作系統(tǒng)發(fā)起IO調(diào)用請求。

2.操作系統(tǒng)準(zhǔn)備數(shù)據(jù)，外部設(shè)備的數(shù)據(jù)通過網(wǎng)卡加載到內(nèi)核緩沖區(qū)。

3.操作系統(tǒng)拷貝數(shù)據(jù)，即將內(nèi)核緩沖區(qū)的數(shù)據(jù)copy到用戶進(jìn)程緩沖區(qū)。

而一次IO的本質(zhì)其實(shí)就是: 等待 + 拷貝

IO模型有哪些？

1.阻塞式 IO：

服務(wù)端為了處理客戶端的連接和數(shù)據(jù)處理：

偽代碼具體如下：

listenfd = socket();   // 打開一個(gè)網(wǎng)絡(luò)通信套接字
bind(listenfd);        // 綁定
listen(listenfd);      // 監(jiān)聽
while(true) {
  buf = new buf[1024]; // 讀取數(shù)據(jù)容器
  connfd = accept(listenfd);  // 阻塞 等待建立連接
  int n = read(connfd, buf);  // 阻塞 讀數(shù)據(jù)
  doSomeThing(buf);  // 處理數(shù)據(jù)
  close(connfd);     // 關(guān)閉連接
}

上面的偽代碼中我們可以看出，服務(wù)端處理客戶端的請求阻塞在兩個(gè)地方，一個(gè)是 accept、一個(gè)是 read ，我們這里主要研究 read 的過程，可以分為兩個(gè)階段：等待讀就緒（等待數(shù)據(jù)到達(dá)網(wǎng)卡 & 將網(wǎng)卡的數(shù)據(jù)拷貝到內(nèi)核緩沖區(qū)）、讀數(shù)據(jù)。

阻塞IO流程如下：

圖片

2.非阻塞式 IO：

非阻塞式 IO 我們應(yīng)該讓操作系統(tǒng)提供一個(gè)非阻塞的 read() 函數(shù)，當(dāng)?shù)谝浑A段讀未就緒時(shí)返回 -1 ，當(dāng)讀已就緒時(shí)才進(jìn)行數(shù)據(jù)的讀取。

非阻塞IO往往需要程序員循環(huán)的方式反復(fù)嘗試讀寫文件描述符, 這個(gè)過程稱為輪詢(for(connfd : arr)). 這對CPU來說是較大的浪費(fèi), 一般只有特定場景下才使用.

偽代碼具體如下：

arr = new Arr[];
listenfd = socket();   // 打開一個(gè)網(wǎng)絡(luò)通信套接字
bind(listenfd);        // 綁定
listen(listenfd);      // 監(jiān)聽
while(true) {
  connfd = accept(listenfd);  // 阻塞 等待建立連接
  arr.add(connfd);
}


// 異步線程檢測 連接是否可讀
new Tread(){
  for(connfd : arr){
    buf = new buf[1024]; // 讀取數(shù)據(jù)容器
    // 非阻塞 read 最重要的是提供了我們在一個(gè)線程內(nèi)管理多個(gè)文件描述符的能力
    int n = read(connfd, buf);  // 檢測 connfd 是否可讀
    if(n != -1){
       newThreadDeal(buf);   // 創(chuàng)建新線程處理
       close(connfd);        // 關(guān)閉連接 
       arr.remove(connfd);   // 移除已處理的連接
    }
  }
}


newTheadDeal(buf){
  doSomeThing(buf);  // 處理數(shù)據(jù)
}

所謂非阻塞 IO 只是將第一階段的等待讀就緒改為非阻塞，但是第二階段的數(shù)據(jù)讀取還是阻塞的，非阻塞 read 最重要的是提供了我們在一個(gè)線程內(nèi)管理多個(gè)文件描述符的能力

非阻塞具體流程如下：

圖片

3. IO多路復(fù)用（select、poll、epoll）：

上面的實(shí)現(xiàn)看著很不錯(cuò)，但是卻存在一個(gè)很大的問題，我們需要不斷的調(diào)用 read() 進(jìn)行系統(tǒng)調(diào)用，這里的系統(tǒng)調(diào)用我們可以理解為分布式系統(tǒng)的 RPC 調(diào)用，性能損耗十分嚴(yán)重，因?yàn)檫@依然是用戶層的一些小把戲。

多路復(fù)用就是系統(tǒng)提供了一種函數(shù)可以同時(shí)監(jiān)控多個(gè)文件描述符的操作，這個(gè)函數(shù)就是我們常說到的select、poll、epoll函數(shù)，可以通過它們同時(shí)監(jiān)控多個(gè)文件描述符，只要有任何一個(gè)數(shù)據(jù)狀態(tài)準(zhǔn)備就緒了，就返回可讀狀態(tài)，這時(shí)詢問線程再去通知處理數(shù)據(jù)的線程，對應(yīng)線程此時(shí)再發(fā)起read()請求去讀取數(shù)據(jù)。實(shí)際上最核心之處在于IO多路轉(zhuǎn)接能夠同時(shí)等待多個(gè)文件描述符的就緒狀態(tài),來達(dá)到不必為每個(gè)文件描述符創(chuàng)建一個(gè)對應(yīng)的監(jiān)控線程，從而減少線程資源創(chuàng)建的目的。

select：

select 是操作系統(tǒng)提供的系統(tǒng)函數(shù)，通過它我們可以將文件描述符發(fā)送給系統(tǒng)，讓系統(tǒng)內(nèi)核幫我們遍歷檢測是否可讀，并告訴我們進(jìn)行讀取數(shù)據(jù)。

偽代碼如下：

arr = new Arr[];
listenfd = socket();   // 打開一個(gè)網(wǎng)絡(luò)通信套接字
bind(listenfd);        // 綁定
listen(listenfd);      // 監(jiān)聽
while(true) {
  connfd = accept(listenfd);  // 阻塞 等待建立連接
  arr.add(connfd);
}


// 異步線程檢測 通過 select 判斷是否有連接可讀
new Tread(){
  while(select(arr) > 0){
    for(connfd : arr){
      if(connfd can read){
        // 如果套接字可讀 創(chuàng)建新線程處理
        newTheadDeal(connfd);
        arr.remove(connfd);   // 移除已處理的連接
      }
    }
  }
}


newTheadDeal(connfd){
    buf = new buf[1024]; // 讀取數(shù)據(jù)容器
    int n = read(connfd, buf);  // 阻塞讀取數(shù)據(jù)
    doSomeThing(buf);  // 處理數(shù)據(jù)
    close(connfd);        // 關(guān)閉連接 
}

流程簡圖：

圖片

優(yōu)點(diǎn)：

1.減少大量系統(tǒng)調(diào)用。

2.系統(tǒng)內(nèi)核幫我們遍歷檢測是否可讀。

存在一些問題：

? 每次調(diào)用需要在用戶態(tài)和內(nèi)核態(tài)之間拷貝文件描述符數(shù)組，但高并發(fā)場景下這個(gè)拷貝的消耗是很大的。

? 內(nèi)核檢測文件描述符可讀還是通過遍歷實(shí)現(xiàn)，當(dāng)文件描述符數(shù)組很長時(shí)，遍歷操作耗時(shí)也很長。

? 內(nèi)核檢測完文件描述符數(shù)組后，當(dāng)存在可讀的文件描述符數(shù)組時(shí)，用戶態(tài)需要再遍歷檢測一遍。

poll：

? poll 和 select 原理基本一致，最大的區(qū)別是去掉了最大 1024 個(gè)文件描述符的限制。

? select 使用固定長度的 BitsMap，表示文件描述符集合，而且所支持的文件描述符的個(gè)數(shù)是有限制的，在 Linux 系統(tǒng)中，由內(nèi)核中的 FD_SETSIZE 限制，默認(rèn)最大值為 1024，只能監(jiān)聽 0~1023 的文件描述符。

? poll 不再用 BitsMap 來存儲所關(guān)注的文件描述符，取而代之用動態(tài)數(shù)組，以鏈表形式來組織，突破了 select 的文件描述符個(gè)數(shù)限制，當(dāng)然還會受到系統(tǒng)文件描述符限制。

epoll：

epoll 主要優(yōu)化了上面三個(gè)問題實(shí)現(xiàn)：

1.每次調(diào)用需要在用戶態(tài)和內(nèi)核態(tài)之間拷貝文件描述符數(shù)組，但高并發(fā)場景下這個(gè)拷貝的消耗是很大的。
方案：內(nèi)核中保存一份文件描述符，無需用戶每次傳入，而是僅同步修改部分。
2.內(nèi)核檢測文件描述符可讀還是通過遍歷實(shí)現(xiàn)，當(dāng)文件描述符數(shù)組很長時(shí)，遍歷操作耗時(shí)也很長。
方案：通過事件喚醒機(jī)制喚醒替代遍歷。
3.內(nèi)核檢測完文件描述符數(shù)組后，當(dāng)存在可讀的文件描述符數(shù)組時(shí)，用戶態(tài)需要再遍歷檢測一遍。
方案：僅將可讀部分文件描述符同步給用戶態(tài)，不需要用戶態(tài)再次遍歷。

epoll 基于高效的紅黑樹結(jié)構(gòu)，提供了三個(gè)核心操作：epoll_create、epoll_ctl、epoll_wait。

epoll_create：

用于創(chuàng)建epoll文件描述符，該文件描述符用于后續(xù)的epoll操作，參數(shù)size目前還沒有實(shí)際用處，我們只要填一個(gè)大于0的數(shù)就行。

圖片

epoll_ctl:

epoll_ctl函數(shù)用于增加，刪除，修改epoll事件，epoll事件會存儲于內(nèi)核epoll結(jié)構(gòu)體紅黑樹中.

圖片

epoll_wait函數(shù)：

epoll_wait用于監(jiān)聽套接字事件，可以通過設(shè)置超時(shí)時(shí)間timeout來控制監(jiān)聽的行為為阻塞模式還是超時(shí)模式。

圖片

整體運(yùn)轉(zhuǎn)如下：

圖片

偽代碼如下：

listenfd = socket();   // 打開一個(gè)網(wǎng)絡(luò)通信套接字
bind(listenfd);        // 綁定
listen(listenfd);      // 監(jiān)聽
int epfd = epoll_create(...); // 創(chuàng)建 epoll 對象
while(1) {
  connfd = accept(listenfd);  // 阻塞 等待建立連接
  epoll_ctl(connfd, ...);  // 將新連接加入到 epoll 對象
}


// 異步線程檢測 通過 epoll_wait 阻塞獲取可讀的套接字
new Tread(){
  while(arr = epoll_wait()){
    for(connfd : arr){
        // 僅返回可讀套接字
        newTheadDeal(connfd);
    }
  }
}


newTheadDeal(connfd){
    buf = new buf[1024]; // 讀取數(shù)據(jù)容器
    int n = read(connfd, buf);  // 阻塞讀取數(shù)據(jù)
    doSomeThing(buf);  // 處理數(shù)據(jù)
    close(connfd);        // 關(guān)閉連接 
}

LT模式和ET模式：

LT模式：水平觸發(fā)：

1.socket讀觸發(fā)：socket接收緩沖區(qū)有數(shù)據(jù)，會一直觸發(fā)epoll_wait EPOLLIN事件，直到數(shù)據(jù)被用戶讀取完。

2.socket寫觸發(fā)：socket可寫，會一直觸發(fā)epoll_wait EPOLLOUT事件。

ET模式：邊緣觸發(fā)：

1.socket讀觸發(fā)：當(dāng)被監(jiān)控的 Socket 描述符上有可讀事件發(fā)生時(shí)，服務(wù)器端只會從 epoll_wait 中蘇醒一次，即使進(jìn)程沒有調(diào)用 read 函數(shù)從內(nèi)核讀取數(shù)據(jù)，也依然只蘇醒一次，因此我們程序要保證一次性將內(nèi)核緩沖區(qū)的數(shù)據(jù)讀取完。

2.socket寫觸發(fā)：socket可寫，會觸發(fā)一次epoll_wait EPOLLOUT事件。

epoll為什么高效：

1.紅黑樹紅黑樹提高epoll事件增刪查改效率。

2.回調(diào)通知機(jī)制:當(dāng)epoll監(jiān)聽套接字有數(shù)據(jù)讀或者寫時(shí)，會通過注冊到socket的回調(diào)函數(shù)通知epoll，epoll檢測到事件后，將事件存儲在就緒隊(duì)列（rdllist）。

3.就緒隊(duì)列：epoll_wait返回成功后，會將所有就緒事件存儲在事件數(shù)組，用戶不需要進(jìn)行無效的輪詢，從而提高了效率。

信號驅(qū)動IO:

多路轉(zhuǎn)接解決了一個(gè)線程可以監(jiān)控多個(gè)fd的問題，但是select采用無腦的輪詢就顯得有點(diǎn)暴力，因?yàn)榇蟛糠智闆r下的輪詢都是無效的，所以有人就想，別讓我總?cè)枖?shù)據(jù)是否準(zhǔn)備就緒，而是等你準(zhǔn)備就緒后主動通知我,這邊是信號驅(qū)動IO。

信號驅(qū)動IO是在調(diào)用sigaction時(shí)候建立一個(gè)SIGIO的信號聯(lián)系，當(dāng)內(nèi)核準(zhǔn)備好數(shù)據(jù)之后再通過SIGIO信號通知線程,此fd準(zhǔn)備就緒，當(dāng)線程收到可讀信號后，此時(shí)再向內(nèi)核發(fā)起recvfrom讀取數(shù)據(jù)的請求，因?yàn)樾盘栻?qū)動IO的模型下,應(yīng)用線程在發(fā)出信號監(jiān)控后即可返回，不會阻塞，所以一個(gè)應(yīng)用線程也可以同時(shí)監(jiān)控多個(gè)fd。