高速網絡的未來:零拷貝Zero-Copy架構
在當今高速發展的信息技術領域,追求極致的性能和效率是永恒的主題。而當我們深入探索計算機系統的內部奧秘時,一個令人矚目的概念 —— 零拷貝(Zero-Copy)架構,逐漸走入我們的視野。想象一下,在數據如洪流般在系統中穿梭的場景下,傳統的數據傳輸方式往往伴隨著頻繁的數據復制操作,這不僅消耗了大量的時間和系統資源,還成為了性能提升的瓶頸。而零拷貝架構宛如一位神奇的魔術師,以其獨特的方式打破了這些束縛,為我們展現出一個全新的數據處理境界。
那么,零拷貝架構究竟有著怎樣的魔力?它是如何實現高效的數據傳輸,為系統性能帶來質的飛躍?讓我們一同踏上這場充滿驚喜與挑戰的探索之旅,揭開零拷貝架構的神秘面紗,領略其在現代計算機系統中所綻放的璀璨光芒。
一、零拷貝架構簡介
零拷貝指的是在 I/O 過程中,用戶空間和內核空間不需要進行 CPU 數據拷貝。傳統 I/O 與零拷貝架構在數據拷貝次數和上下文切換次數上存在明顯差異。
零拷貝(zero-copy)基本思想是:數據報從網絡設備到用戶程序空間傳遞的過程中,減少數據拷貝次數,減少系統調用,實現CPU的零參與,徹底消除 CPU在這方面的負載。實現零拷貝用到的最主要技術是DMA數據傳輸技術和內存區域映射技術。如圖下所示,傳統的網絡數據報處理,需要經過網絡設備到操作系統內存空間,系統內存空間到用戶應用程序空間這兩次拷貝,同時還需要經歷用戶向系統發出的系統調用。
而零拷貝技術則首先利用DMA技術將網絡數據報直接傳遞到系統內核預先分配的地址空間中,避免CPU的參與;同時,將系統內核中存儲數據報的內存區域映射到檢測程序的應用程序空間(還有一種方式是在用戶空間建立一緩存,并將其映射到內核空間,類似于linux系統下的kiobuf技術),檢測程序直接對這塊內存進行訪問,從而減少了系統內核向用戶空間的內存拷貝,同時減少了系統調用的開銷,實現了真正的“零拷貝”。
圖片
在傳統的 I/O 操作中,讀取文件并通過 Socket 發送,需要經過多次數據拷貝和上下文切換。具體來說,包括 4 次上下文切換、2 次 CPU 數據拷貝和 2 次 DMA 控制器數據拷貝。而 Linux 零拷貝架構旨在減少這些數據拷貝和上下文切換的次數,從而提高系統性能。在 Linux 操作系統層面上,有多種實現零拷貝的方案,如內存映射(mmap)、sendfile、splice、tee 等。
內存映射(mmap)是指用戶空間和內核空間的虛擬內存地址同時映射到同一塊物理內存,用戶態進程可以直接操作物理內存,避免用戶空間和內核空間之間的數據拷貝。其執行流程如下:用戶進程通過系統調用 mmap 函數進入內核態,發生第 1 次上下文切換,并建立內核緩沖區;發生缺頁中斷,CPU 通知 DMA 讀取數據;
DMA 拷貝數據到物理內存,并建立內核緩沖區和物理內存的映射關系;建立用戶空間的進程緩沖區和同一塊物理內存的映射關系,由內核態轉變為用戶態,發生第 2 次上下文切換;用戶進程進行邏輯處理后,通過系統調用 Socket send,用戶態進入內核態,發生第 3 次上下文切換;系統調用 Send 創建網絡緩沖區,并拷貝內核讀緩沖區數據;DMA 控制器將網絡緩沖區的數據發送網卡,并返回,由內核態進入用戶態,發生第 4 次上下文切換。
總結來看,mmap 避免了內核空間和用戶空間的 2 次 CPU 拷貝,但增加了 1 次內核空間的 CPU 拷貝,整體上相當于只減少了 1 次 CPU 拷貝。針對大文件比較適合 mmap,小文件則會造成較多的內存碎片,得不償失。當 mmap 一個文件時,如果文件被另一個進程截獲可能會因為非法訪問導致進程被 SIGBUS 信號終止。
sendfile 是在 linux2.1 引入的,它只需要 2 次上下文切換和 1 次內核 CPU 拷貝、2 次 DMA 拷貝。函數原型為 ssize_t sendfile (int out_fd, int in_fd, off_t *offset, size_t count);out_fd 為文件描述符,in_fd 為網絡緩沖區描述符,offset 偏移量(默認 NULL),count 文件大小。
其內部執行流程是:用戶進程系統調用 senfile,由用戶態進入內核態,發生第 1 次上下文切換;CPU 通知 DMA 控制器把文件數據拷貝到內核緩沖區;內核空間自動調用網絡發送功能并拷貝數據到網絡緩沖區;CPU 通知 DMA 控制器發送數據;sendfile 系統調用結束并返回,進程由內核態進入用戶態,發生第 2 次上下文切換。總結來看,數據處理完全是由內核操作,減少了 2 次上下文切換,整個過程 2 次上下文切換、1 次 CPU 拷貝,2 次 DMA 拷貝。雖然可以設置偏移量,但不能對數據進行任何的修改。
Linux2.4 對 sendfile 進行了優化,為 DMA 控制器引入了 gather 功能,即 sendfile+DMA gather。在不拷貝數據到網絡緩沖區的情況下,將待發送數據的內存地址和偏移量等描述信息存在網絡緩沖區,DMA 根據描述信息從內核的讀緩沖區截取數據并發送。
其流程是:用戶進程系統調用 senfile,由用戶態進入內核態,發生第 1 次上下文切換;CPU 通知 DMA 控制器把文件數據拷貝到內核緩沖區;把內核緩沖區地址和 sendfile 的相關參數作為數據描述信息存在網絡緩沖區中;CPU 通知 DMA 控制器,DMA 根據網絡緩沖區中的數據描述截取數據并發送;sendfile 系統調用結束并返回,進程由內核態進入用戶態,發生第 2 次上下文切換。總結來看,需要硬件支持,如 DMA;整個過程 2 次上下文切換,0 次 CPU 拷貝,2 次 DMA 拷貝,實現真正意義上的零拷貝。依然不能修改數據。
splice 是鑒于 Sendfile 的缺點,在 Linux2.6.17 中引入的。它在讀緩沖區和網絡操作緩沖區之間建立管道避免 CPU 拷貝:先將文件讀入到內核緩沖區,然后再與內核網絡緩沖區建立管道。其函數原型為 ssize_t splice (int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags)。執行流程如下:用戶進程系統調用 splice,由用戶態進入內核態,發生第 1 次上下文切換;CPU 通知 DMA 控制器把文件數據拷貝到內核緩沖區;建立內核緩沖區和網絡緩沖區的管道;CPU 通知 DMA 控制器,DMA 從管道讀取數據并發送。總結來看,依然不能修改數據。tee與splice 類同,但 fd_in 和 fd_out 都必須是管道。
⑴什么是零拷貝?
簡單一點來說,零拷貝就是一種避免 CPU 將數據從一塊存儲拷貝到另外一塊存儲的技術。針對操作系統中的設備驅動程序、文件系統以及網絡協議堆棧而出現的各種零拷貝技術極大地提升了特定應用程序的性能,并且使得這些應用程序可以更加有效地利用系統資源。這種性能的提升就是通過在數據拷貝進行的同時,允許 CPU 執行其他的任務來實現的。
零拷貝技術可以減少數據拷貝和共享總線操作的次數,消除傳輸數據在存儲器之間不必要的中間拷貝次數,從而有效地提高數據傳輸效率。而且,零拷貝技術減少了用戶應用程序地址空間和操作系統內核地址空間之間因為上下文切換而帶來的開銷。進行大量的數據拷貝操作其實是一件簡單的任務,從操作系統的角度來說,如果 CPU 一直被占用著去執行這項簡單的任務,那么這將會是很浪費資源的;如果有其他比較簡單的系統部件可以代勞這件事情,從而使得 CPU 解脫出來可以做別的事情,那么系統資源的利用則會更加有效。
⑵避免數據拷貝
- 避免操作系統內核緩沖區之間進行數據拷貝操作。
- 避免操作系統內核和用戶應用程序地址空間這兩者之間進行數據拷貝操作。
- 用戶應用程序可以避開操作系統直接訪問硬件存儲。
- 數據傳輸盡量讓 DMA 來做。
⑶將多種操作結合在一起
- 避免不必要的系統調用和上下文切換。
- 需要拷貝的數據可以先被緩存起來。
- 對數據進行處理盡量讓硬件來做。
前文提到過,對于高速網絡來說,零拷貝技術是非常重要的。這是因為高速網絡的網絡鏈接能力與 CPU 的處理能力接近,甚至會超過 CPU 的處理能力。
如果是這樣的話,那么 CPU 就有可能需要花費幾乎所有的時間去拷貝要傳輸的數據,而沒有能力再去做別的事情,這就產生了性能瓶頸,限制了通訊速率,從而降低了網絡連接的能力。一般來說,一個 CPU 時鐘周期可以處理一位的數據。舉例來說,一個 1 GHz 的處理器可以對 1Gbit/s 的網絡鏈接進行傳統的數據拷貝操作,但是如果是 10 Gbit/s 的網絡,那么對于相同的處理器來說,零拷貝技術就變得非常重要了。
對于超過 1 Gbit/s 的網絡鏈接來說,零拷貝技術在超級計算機集群以及大型的商業數據中心中都有所應用。然而,隨著信息技術的發展,1 Gbit/s,10 Gbit/s 以及 100 Gbit/s 的網絡會越來越普及,那么零拷貝技術也會變得越來越普及,這是因為網絡鏈接的處理能力比 CPU 的處理能力的增長要快得多。傳統的數據拷貝受限于傳統的操作系統或者通信協議,這就限制了數據傳輸性能。零拷貝技術通過減少數據拷貝次數,簡化協議處理的層次,在應用程序和網絡之間提供更快的數據傳輸方法,從而可以有效地降低通信延遲,提高網絡吞吐率。零拷貝技術是實現主機或者路由器等設備高速網絡接口的主要技術之一。
現代的 CPU 和存儲體系結構提供了很多相關的功能來減少或避免 I/O 操作過程中產生的不必要的 CPU 數據拷貝操作,但是,CPU 和存儲體系結構的這種優勢經常被過高估計。存儲體系結構的復雜性以及網絡協議中必需的數據傳輸可能會產生問題,有時甚至會導致零拷貝這種技術的優點完全喪失。在下一章中,我們會介紹幾種 Linux 操作系統中出現的零拷貝技術,簡單描述一下它們的實現方法,并對它們的弱點進行分析。
二、零拷貝分類與優勢
2.1零拷貝技術分類
零拷貝技術的發展很多樣化,現有的零拷貝技術種類也非常多,而當前并沒有一個適合于所有場景的零拷貝技術的出現。對于 Linux 來說,現存的零拷貝技術也比較多,這些零拷貝技術大部分存在于不同的 Linux 內核版本,有些舊的技術在不同的 Linux 內核版本間得到了很大的發展或者已經漸漸被新的技術所代替。本文針對這些零拷貝技術所適用的不同場景對它們進行了劃分。概括起來,Linux 中的零拷貝技術主要有下面這幾種:
- 直接 I/O:對于這種數據傳輸方式來說,應用程序可以直接訪問硬件存儲,操作系統內核只是輔助數據傳輸:這類零拷貝技術針對的是操作系統內核并不需要對數據進行直接處理的情況,數據可以在應用程序地址空間的緩沖區和磁盤之間直接進行傳輸,完全不需要 Linux 操作系統內核提供的頁緩存的支持。
- 在數據傳輸的過程中,避免數據在操作系統內核地址空間的緩沖區和用戶應用程序地址空間的緩沖區之間進行拷貝。有的時候,應用程序在數據進行傳輸的過程中不需要對數據進行訪問,那么,將數據從 Linux 的頁緩存拷貝到用戶進程的緩沖區中就可以完全避免,傳輸的數據在頁緩存中就可以得到處理。在某些特殊的情況下,這種零拷貝技術可以獲得較好的性能。Linux 中提供類似的系統調用主要有 mmap(),sendfile() 以及 splice()。
- 對數據在 Linux 的頁緩存和用戶進程的緩沖區之間的傳輸過程進行優化。該零拷貝技術側重于靈活地處理數據在用戶進程的緩沖區和操作系統的頁緩存之間的拷貝操作。這種方法延續了傳統的通信方式,但是更加靈活。在Linux中,該方法主要利用了寫時復制技術。
前兩類方法的目的主要是為了避免應用程序地址空間和操作系統內核地址空間這兩者之間的緩沖區拷貝操作。這兩類零拷貝技術通常適用在某些特殊的情況下,比如要傳送的數據不需要經過操作系統內核的處理或者不需要經過應用程序的處理。第三類方法則繼承了傳統的應用程序地址空間和操作系統內核地址空間之間數據傳輸的概念,進而針對數據傳輸本身進行優化。
我們知道,硬件和軟件之間的數據傳輸可以通過使用 DMA 來進行,DMA 進行數據傳輸的過程中幾乎不需要CPU 參與,這樣就可以把 CPU 解放出來去做更多其他的事情,但是當數據需要在用戶地址空間的緩沖區和Linux 操作系統內核的頁緩存之間進行傳輸的時候,并沒有類似 DMA 這種工具可以使用,CPU 需要全程參與到這種數據拷貝操作中,所以這第三類方法的目的是可以有效地改善數據在用戶地址空間和操作系統內核地址空間之間傳遞的效率。
2.2Linux 零拷貝架構的優勢
⑴減少了 CPU 拷貝,提升了 I/O 性能。
Linux 零拷貝架構通過多種方式減少了 CPU 拷貝操作,從而顯著提升了 I/O 性能。在傳統的 I/O 操作中,數據需要在用戶空間和內核空間之間進行多次拷貝,這不僅占用了大量的 CPU 資源,還增加了數據傳輸的時間。而零拷貝架構則避免了這些不必要的拷貝操作,直接將數據從源地址傳輸到目標地址,大大提高了數據傳輸的效率。
例如,內存映射(mmap)雖然增加了一次內核空間的 CPU 拷貝,但整體上相當于只減少了一次 CPU 拷貝。對于大文件來說,mmap 可以有效地減少數據拷貝的次數,提高 I/O 性能。而 sendfile 在 Linux 2.1 引入后,只需要 2 次上下文切換和 1 次內核 CPU 拷貝、2 次 DMA 拷貝,相比傳統的 I/O 操作,大大減少了 CPU 拷貝的次數。在 Linux 2.4 對 sendfile 進行優化后,引入了 DMA gather 功能,實現了真正意義上的零拷貝,整個過程只需要 2 次上下文切換和 0 次 CPU 拷貝、2 次 DMA 拷貝。
這些零拷貝技術的實現,使得數據傳輸更加高效,減少了 CPU 的負擔,從而提升了系統的整體性能。
⑵降低了用戶態和內核態切換次數,提高系統效率。
除了減少 CPU 拷貝外,Linux 零拷貝架構還降低了用戶態和內核態的切換次數,進一步提高了系統效率。在傳統的 I/O 操作中,讀取文件并通過 Socket 發送需要經過多次用戶態和內核態的切換,這不僅增加了系統的開銷,還降低了系統的響應速度。
而零拷貝架構通過優化數據傳輸的流程,減少了系統調用的次數,從而降低了用戶態和內核態的切換次數。例如,sendfile 只需要 2 次上下文切換,相比傳統的 I/O 操作減少了 2 次切換次數。這使得系統能夠更加高效地處理數據傳輸任務,提高了系統的整體效率。
此外,零拷貝技術還可以減少內存帶寬的占用,提高系統的并發處理能力。在實際應用中,可以根據具體的業務需求選擇合適的零拷貝技術,以達到最佳的性能優化效果。
三、零拷貝的定義
Zero-copy, 就是在操作數據時, 不需要將數據 buffer 從一個內存區域拷貝到另一個內存區域. 因為少了一次內存的拷貝, 因此 CPU 的效率就得到的提升;在 OS 層面上的 Zero-copy 通常指避免在 用戶態(User-space) 與 內核態(Kernel-space) 之間來回拷貝數據。
Netty 中的 Zero-copy 與 OS 的 Zero-copy 不太一樣, Netty的 Zero-coyp 完全是在用戶態(Java 層面)的, 它的 Zero-copy 的更多的是偏向于優化數據操作。
3.1Netty的“零拷貝”
主要體現在如下三個方面:
- Netty的接收和發送ByteBuffer采用DIRECT BUFFERS,使用堆外直接內存進行Socket讀寫,不需要進行字節緩沖區的二次拷貝。如果使用傳統的堆內存(HEAP BUFFERS)進行Socket讀寫,JVM會將堆內存Buffer拷貝一份到直接內存中,然后才寫入Socket中。相比于堆外直接內存,消息在發送過程中多了一次緩沖區的內存拷貝。
- Netty提供了組合Buffer對象,可以聚合多個ByteBuffer對象,用戶可以像操作一個Buffer那樣方便得對組合Buffer進行操作,避免了傳統通過內存拷貝的方式將幾個小Buffer合并成一個大的Buffer。
- Netty的文件傳輸采用了transferTo方法,它可以直接將文件緩沖區的數據發送到目標Channel,避免了傳統通過循環write方式導致的內存拷貝問題。
3.2傳統 IO 方式
在 java 開發中,從某臺機器將一份數據通過網絡傳輸到另外一臺機器,大致的代碼如下:
Socket socket = new Socket(HOST, PORT);
InputStream inputStream = new FileInputStream(FILE_PATH);
OutputStream outputStream = new DataOutputStream(socket.getOutputStream());
byte[] buffer = new byte[4096];
while (inputStream.read(buffer) >= 0) {
outputStream.write(buffer);
}
outputStream.close();
socket.close();
inputStream.close();
看起來代碼很簡單,但如果我們深入到操作系統層面,就會發現實際的微觀操作更復雜。具體操作如下圖:
圖片
- 用戶進程向OS發出read()系統調用,觸發上下文切換,從用戶態轉換到內核態。
- CPU發起IO請求,通過直接內存訪問(DMA)從磁盤讀取文件內容,復制到內核緩沖區PageCache中
- 將內核緩沖區數據,拷貝到用戶空間緩沖區,觸發上下文切換,從內核態轉換到用戶態。
- 用戶進程向OS發起write系統調用,觸發上下文切換,從用戶態切換到內核態。
- 將數據從用戶緩沖區拷貝到內核中與目的地Socket關聯的緩沖區。
- 數據最終經由Socket通過DMA傳送到硬件(網卡)緩沖區,write()系統調用返回,并從內核態切換回用戶態。
圖片
四、零拷貝(Zero-copy)
4.1數據拷貝基礎過程
在Linux系統內部緩存和內存容量都是有限的,更多的數據都是存儲在磁盤中。對于Web服務器來說,經常需要從磁盤中讀取數據到內存,然后再通過網卡傳輸給用戶:
圖片
上述數據流轉只是大框,接下來看看幾種模式。
⑴僅CPU方式
- 當應用程序需要讀取磁盤數據時,調用read()從用戶態陷入內核態,read()這個系統調用最終由CPU來完成;
- CPU向磁盤發起I/O請求,磁盤收到之后開始準備數據;
- 磁盤將數據放到磁盤緩沖區之后,向CPU發起I/O中斷,報告CPU數據已經Ready了;
- CPU收到磁盤控制器的I/O中斷之后,開始拷貝數據,完成之后read()返回,再從內核態切換到用戶態;
圖片
⑵CPU&DMA方式
CPU的時間寶貴,讓它做雜活就是浪費資源。
直接內存訪問(Direct Memory Access),是一種硬件設備繞開CPU獨立直接訪問內存的機制。所以DMA在一定程度上解放了CPU,把之前CPU的雜活讓硬件直接自己做了,提高了CPU效率。
目前支持DMA的硬件包括:網卡、聲卡、顯卡、磁盤控制器等。
圖片
有了DMA的參與之后的流程發生了一些變化:
圖片
主要的變化是,CPU不再和磁盤直接交互,而是DMA和磁盤交互并且將數據從磁盤緩沖區拷貝到內核緩沖區,之后的過程類似。
【敲黑板】無論從僅CPU方式和DMA&CPU方式,都存在多次冗余數據拷貝和內核態&用戶態的切換。”
我們繼續思考Web服務器讀取本地磁盤文件數據再通過網絡傳輸給用戶的詳細過程。
4.2普通模式數據交互
一次完成的數據交互包括幾個部分:系統調用syscall、CPU、DMA、網卡、磁盤等。
圖片
系統調用syscall是應用程序和內核交互的橋梁,每次進行調用/返回就會產生兩次切換:
- 調用syscall 從用戶態切換到內核態
- syscall返回 從內核態切換到用戶態
圖片
來看下完整的數據拷貝過程簡圖:
圖片
讀數據過程:
- 應用程序要讀取磁盤數據,調用read()函數從而實現用戶態切換內核態,這是第1次狀態切換;
- DMA控制器將數據從磁盤拷貝到內核緩沖區,這是第1次DMA拷貝;
- CPU將數據從內核緩沖區復制到用戶緩沖區,這是第1次CPU拷貝;
- CPU完成拷貝之后,read()函數返回實現用戶態切換用戶態,這是第2次狀態切換;
寫數據過程:
- 應用程序要向網卡寫數據,調用write()函數實現用戶態切換內核態,這是第1次切換;
- CPU將用戶緩沖區數據拷貝到內核緩沖區,這是第1次CPU拷貝;
- DMA控制器將數據從內核緩沖區復制到socket緩沖區,這是第1次DMA拷貝;
- 完成拷貝之后,write()函數返回實現內核態切換用戶態,這是第2次切換;
綜上所述:
- 讀過程涉及2次空間切換、1次DMA拷貝、1次CPU拷貝;
- 寫過程涉及2次空間切換、1次DMA拷貝、1次CPU拷貝;
可見傳統模式下,涉及多次空間切換和數據冗余拷貝,效率并不高,接下來就該零拷貝技術出場了。
4.3零拷貝技術
(1)出現原因
我們可以看到,如果應用程序不對數據做修改,從內核緩沖區到用戶緩沖區,再從用戶緩沖區到內核緩沖區。兩次數據拷貝都需要CPU的參與,并且涉及用戶態與內核態的多次切換,加重了CPU負擔。
我們需要降低冗余數據拷貝、解放CPU,這也就是零拷貝Zero-Copy技術。
(2)解決思路
目前來看,零拷貝技術的幾個實現手段包括:mmap+write、sendfile、sendfile+DMA收集、splice等。
圖片
(3)mmap方式
mmap函數的原型為void* mmap(void* addr, size_t length, int prot, int flags, int fd, off_t offset);。其中,addr是開始映射的地址,屬于進程的邏輯地址;length從開始映射地址,映射的長度,一般是一個頁大小,4KB;prot是期望的內存保護標志,不能與文件打開的標志沖突,比如文件只可讀,這里就不能可寫,有PROT_EXEC(頁內容可以被執行)、PROT_READ(頁內容可以被讀取)、PROT_WRITE(頁可以被寫入)、PROT_NONE(頁不可訪問)幾種選項;flags指定映射對象的類型,映射選項和映射頁是否可以共享,如MAX_FIXED(如果參數start所指的地址無法成功建立映射時,則放棄映射)、MAP_SHARED(與其他映射這個文件的進程共享映射內存,可能存在并發修改)、MAP_PRIVATE(對映射區域的寫入操作會產生一個映射文件的復制,類似于寫時復制,對此區域作的任何修改都不會寫回原來的文件內容);fd是文件描述符;offset是文件映射的偏移量,已經映射了多少。
mmap是Linux提供的一種內存映射文件的機制,它實現了將內核中讀緩沖區地址與用戶空間緩沖區地址進行映射,從而實現內核緩沖區與用戶緩沖區的共享。這樣就減少了一次用戶態和內核態的CPU拷貝,但是在內核空間內仍然有一次CPU拷貝。
mmap+write 工作流程:
- 第一,調用mmap函數將文件和進程虛擬地址空間映射。
- 第二,將磁盤數據讀取到頁高速緩存。
- 第三,調用write函數將頁高速緩存數據直接寫入套接字緩沖區。
- 第四,將套接字緩沖區的數據寫入網卡。
mmap+write 數據傳輸流程:
- 用戶進程調用mmap函數,向內核發起調用,CPU 從用戶態切換到內核態。
- 建立文件物理地址和虛擬內存映射區域的映射,或者說是內核緩沖區 (頁高速緩存) 和虛擬內存映射區域的映射。
- CPU 向磁盤 DMA 控制器發送讀取指定位置和大小的指令,DMA 控制器將數據從磁盤拷貝到內核緩沖區。
- mmap系統調用結束返回,CPU 從內核態切換到用戶態。
- 用戶進程調用write函數,向內核發起調用,CPU 從用戶態切換到內核態。
- CPU 將頁高速緩存中的數據拷貝到套接字緩沖區。
- CPU 向磁盤 DMA 控制器發送 DMA 寫指令,DMA 控制器從套接字緩沖區調用協議棧處理,最后把數據拷貝到網卡。
- write系統調用結束返回,CPU 從內核態切換到用戶態。
圖片
mmap對大文件傳輸有一定優勢,但是小文件可能出現碎片,并且在多個進程同時操作文件時可能產生引發coredump的signal。
(4)sendfile方式
sendfile函數原型為ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);。其中,out_fd是寫入的文件描述符;in_fd是寫入文件描述符;offset是從哪個位置開始讀取;count是讀取多少數據。
- mmap+write方式有一定改進,但是由系統調用引起的狀態切換并沒有減少。
- sendfile系統調用是在 Linux 內核2.1版本中被引入,它建立了兩個文件之間的傳輸通道。
sendfile 工作原理:
- 第一,調用sendfile函數。
- 第二,從磁盤讀取數據,拷貝到內核緩沖區。
- 第三,CPU 將內核緩沖區數據拷貝到套接字緩沖區。
- 第四,套接字緩沖區數據拷貝到網卡。
sendfile 數據傳輸流程:
- 用戶進程調用sendfile函數,向內核發起調用,CPU 從用戶態切換內核態。
- CPU 向磁盤 DMA 控制器發送讀取數據的指令,DMA 控制器讀取磁盤數據,拷貝到頁高速緩存。
- 然后 CPU 將頁高速緩存的數據拷貝到套接字緩沖區。
- CPU 向網卡 DMA 引擎發送讀取指令,從套接字緩沖區調用協議棧處理,然后數據拷貝到網卡。
- sendfile調用結束,CPU 從內核態切換到用戶態。
sendfile + DMA scatter / gather copy
什么是 block DMA:
block DMA 就是要求傳輸數據塊的源物理地址和目標物理地址都是連續的,每次只能傳輸一個數據塊,傳輸完成后,中斷機構觸發中斷。
什么是 SG-DMA:
- 第一,SG-DMA 是 scatter /gather 的縮寫,scatter 可以將一個源位置連續的數據塊傳輸到目的地離散的存儲;gather 可以將源位置分散的數據塊傳輸到目的地連續的存儲。
- 第二,SG-DMA 會預先維護一個物理上不連續的塊描述符的鏈表,描述符中包含有數據的起始地址和長度。傳輸時只需要遍歷鏈表,按序傳輸數據,全部完成后發起一次中斷即可,效率比 Block DMA 要高。
sendfile + DMA scatter /gather copy 的核心思想:
sendfile 設計的時候并不是針對處理大文件的,如果需要處理大文件的話,需要調用另外一個接口sendfile64()。它的核心思想就是基于 DMA scatter /gather 來實現的。在 Linux 2.4 內核版本中,對sendfile系統方法做了優化升級,引入 SG-DMA 技術,需要 DMA 控制器支持。
其實就是對 DMA 拷貝加入了 scatter/gather 操作,它可以直接從內核空間緩沖區中將數據讀取到網卡,多省去一次 CPU 拷貝。實現了真正意義上的零拷貝,整個過程 2 次上下文切換,0 次 CPU 拷貝,2 次 DMA 拷貝。
sendfile方式只使用一個函數就可以完成之前的read+write 和 mmap+write的功能,這樣就少了2次狀態切換,由于數據不經過用戶緩沖區,因此該數據無法被修改。
splice 系統調用可以在內核緩沖區和socket緩沖區之間建立管道來傳輸數據,避免了兩者之間的 CPU 拷貝操作。
splice也有一些局限,它的兩個文件描述符參數中有一個必須是管道設備。
以下使用 FileChannel.transferTo 方法,實現 zero-copy:
SocketAddress socketAddress = new InetSocketAddress(HOST, PORT);
SocketChannel socketChannel = SocketChannel.open();
socketChannel.connect(socketAddress);
File file = new File(FILE_PATH);
FileChannel fileChannel = new FileInputStream(file).getChannel();
fileChannel.transferTo(0, file.length(), socketChannel);
fileChannel.close();
socketChannel.close();
相比傳統方式,零拷貝的執行流程如下圖:
圖片
可以看到,相比傳統方式,零拷貝不走數據緩沖區減少了一些不必要的操作。
4.4零拷貝的應用
零拷貝在很多框架中得到了廣泛使用,常見的比如 Netty、Kafka 等等。
在 kafka 中使用了很多設計思想,比如分區并行、順序寫入、頁緩存、高效序列化、零拷貝等等。
上邊博客分析了 Kafka 的大概架構,知道了 kafka 中的文件都是以.log 文件存儲,每個日志文件對應兩個索引文件.index 與.timeindex。kafka 在傳輸數據時利用索引,使用 fileChannel.transferTo (position, count, socketChannel) 指定數據位置與大小實現零拷貝。
kafka 底層傳輸源碼:(TransportLayer)
/**
* Transfers bytes from `fileChannel` to this `TransportLayer`.
*
* This method will delegate to {@link FileChannel#transferTo(long, long, java.nio.channels.WritableByteChannel)},
* but it will unwrap the destination channel, if possible, in order to benefit from zero copy. This is required
* because the fast path of `transferTo` is only executed if the destination buffer inherits from an internal JDK
* class.
*
* @param fileChannel The source channel
* @param position The position within the file at which the transfer is to begin; must be non-negative
* @param count The maximum number of bytes to be transferred; must be non-negative
* @return The number of bytes, possibly zero, that were actually transferred
* @see FileChannel#transferTo(long, long, java.nio.channels.WritableByteChannel)
*/
long transferFrom(FileChannel fileChannel, long position, long count) throws IOException;
實現類(PlaintextTransportLayer):
@OverRide
public long transferFrom(FileChannel fileChannel, long position, long count) throws IOException {
return fileChannel.transferTo(position, count, socketChannel);
}
該方法的功能是將 FileChannel 中的數據傳輸到 TransportLayer,也就是 SocketChannel。在實現類 PlaintextTransportLayer 的對應方法中,就是直接調用了 FileChannel.transferTo () 方法。
五、零拷貝架構應用場景
5.1文件下載服務中的應用
在文件下載服務中,傳統的 I/O 操作會導致多次數據拷貝和上下文切換,降低了系統性能。而 Linux 零拷貝架構可以有效地解決這個問題。例如,在文件下載服務中,可以使用內存映射(mmap)、sendfile 等零拷貝技術,直接將文件從磁盤讀取到內核緩沖區,然后再通過網絡發送到客戶端,避免了用戶空間和內核空間之間的數據拷貝,提高了文件下載的速度。
此外,零拷貝技術還可以減少內存帶寬的占用,提高系統的并發處理能力。在文件下載服務中,可以同時處理多個客戶端的請求,提高系統的吞吐量。
5.2Kafka 中的應用
Apache Kafka 是一款開源的、分布式的、高吞吐量的流平臺,廣泛用于實時數據流的處理。Kafka 的高性能得益于其服務端和客戶端的架構設計,以及關鍵的設計和優化技術,如服務端的順序寫磁盤、零拷貝,客戶端的批量發送等。
在 Kafka 中,使用了 Linux 的零拷貝技術 ——sendfile 系統調用來將消息從頁面緩存發送到網絡套接字。這樣,數據可以在內核空間內直接傳輸,避免了在用戶空間和內核空間之間來回拷貝數據,大大提高了數據傳輸的效率。
此外,Kafka 的客戶端也充分考慮了性能優化。一個重要的優化技術是批量發送,即客戶端將多條消息打包成一個批次,然后一次性發送到服務器。這種方式減少了網絡交互的開銷,提高了整體的吞吐量。
五、零拷貝架構的實例
6.1數據采集設備中的應用
在數據采集設備中,傳統的 I/O 操作會導致數據在設備驅動、應用層和網卡之間進行多次拷貝,消耗大量的 CPU 資源,降低系統效率。而采用 Linux 零拷貝技術可以有效地解決這個問題。
例如,實際應用中有一數據采集設備 A,產生大量數據流。應用層讀取通過該設備驅動獲得數據,處理后再通過網卡分發出去。在傳統操作中,數據要由 A 驅動 copy 到應用層,再由應用層處理后再次走網卡驅動,cpu 除了要進行大量的應用處理(計算)還要 copy,效率很低,接收端會出現數據卡的現象。
采用 zero-copy 技術后,具體實現如下:內核端定義共享內存大小和相關變量,通過一系列操作獲取內核緩沖區的虛擬地址和物理地址,并將物理地址傳給應用層。應用層通過獲得的物理地址打開內存映射,獲取共享內存指針,直接讀取其中的內容。這樣就避免了數據在設備驅動和應用層之間的拷貝,提高了系統效率。
6.2Java 中的零拷貝方式
Java 中主要有兩種方式實現零拷貝:使用 FileChannel 的 transferTo 和 transferFrom 方法,以及使用 MappedByteBuffer。
使用 FileChannel 的 transferTo 和 transferFrom 方法:FileChannel 類提供了 transferTo 和 transferFrom 方法,可以在兩個通道之間直接傳輸數據,而無需將數據拷貝到用戶空間。例如,一個使用 FileChannel 的 transferTo 方法實現文件復制的示例中,通過將數據從源通道直接傳輸到目標通道,避免了數據在內核空間和用戶空間之間的拷貝。
使用 MappedByteBuffer:MappedByteBuffer 允許我們將文件的某個區域直接映射到內存中,從而可以像操作內存一樣來操作文件。這種方式同樣減少了數據拷貝的次數。例如,一個使用 MappedByteBuffer 實現文件讀取和寫入的示例中。