談談你對IO多路復用機制的理解
? 一位工作5年的小伙伴面試時被問到IO相關的問題,說,談談你對IO多路復用機制的理解。當時他說只是聽過多路復用,具體細節沒有了解過。今天,我給大家分享一下我的理解。
1.IO多路復用
IO多路復用是一種同步的IO模型。利用IO多路復用模型,可以實現一個線程監視多個文件句柄;一旦某個文件句柄就緒,就能夠通知到對應應用程序進行相應的讀寫操作;沒有文件句柄就緒時就會阻塞應用程序,從而釋放出CPU資源。
IO可以理解為,在操作系統中,數據在內核態和用戶態之間的讀、寫操作,大部分情況下是指網絡IO;
多路大部分情況下是指多個TCP連接,也就是多個Socket 或者多個Channel;
復用是指復用一個或多個線程資源。IO多路復用意思就是說,一個或多個線程處理多個 TCP 連接。盡可能地減少系統開銷,無需創建和維護過多的進程/線程。
實現IO多路復用的模型有三種,分別是Select、poll 和 epoll。下面詳細介紹一下三種多路復用模型的基本原理和優缺點:
2.select模型
select模型,它的基本原理是,采用輪詢和遍歷的方式。也就是說,在客戶端操作服務器時,會創建三種文件描述符,簡稱FD。分別是writefds(寫描述符)、readfds(讀描述符)和 exceptfds(異常描述符)。
而select會阻塞監視這三種文件描述符,等有數據、可讀、可寫、出異常或超時都會返回;
返回后通過遍歷fdset,也就是文件描述符的集合,來找到就緒的FD,然后,觸發相應的IO操作。
它的優點是跨平臺支持性好,幾乎在所有的平臺上支持。
它的缺點也很明顯,由于select是采用輪詢的方式進行全盤掃描,因此,隨著FD數量增多而導致性能下降。
因此,每次調用select()方法,都需要把FD集合從用戶態拷貝到內核態,并進行遍歷。而操作系統對單個進程打開的FD數量是有限制的,一般默認是1024個。雖然,可以通過操作系統的宏定義FD_SETSIZE修改最大FD數量限制,但是,在IO吞吐量巨大的情況下,效率提升仍然有限。
3.poll模型
poll 模型的原理與select模型基本一致,也是采用輪詢加遍歷,唯一的區別就是 poll 采用鏈表的方式來存儲FD。
所以,它的優點點是沒有最大FD的數量限制。
它的缺點和select一樣,也是采用輪詢方式全盤掃描,同樣也會隨著FD數量增多而導致性能下降。
4.epoll模型
由于select和poll都會因為吞吐量增加而導致性能下降,因此,才出現了epoll模型。
epoll模型是采用時間通知機制來觸發相關的IO操作。它沒有FD個數限制,而且從用戶態拷貝到內核態只需要一次。它主要通過系統底層的函數來注冊、激活FD,從而觸發相關的 IO 操作,這樣大大提高了性能。主要是通過調用以下三個系統函數:
(1)epoll_create()函數,在系統啟動時,會在Linux內核里面申請一個B+樹結構的文件系統,然后,返回epoll對象,也是一個FD。
(2)epoll_ctl()函數,每新建一個連接的時候,會同步更新epoll對象中的FD,并且綁定一個 callback回調函數。
(3)epoll_wait()函數,輪詢所有的callback集合,并觸發對應的 IO 操作
所以,epoll模型最大的優點是將輪詢改成了回調,大大提高了CPU執行效率,也不會隨FD數量的增加而導致效率下降。當然,它也沒有FD數量限制,也就是說,它能支持的FD上限是操作系統的最大文件句柄數。一般而言,1G 內存大概支持 10 萬個句柄。分布式系統中常用的組件如Redis、Nginx都是優先采用epoll模型。
它的缺點是只能在Linux下工作。
5.綜合對比
下表是三種多路復用模型的綜合對比,有興趣的小伙伴可以截圖保存一下,或者到我的個人煮葉簡介中獲取。
好了,以上就是我對IO多路復用機制的理解。