成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺析Linux中的零拷貝技術

系統 Linux
本文探討Linux中 主要的幾種零拷貝技術 以及零拷貝技術 適用的場景 。為了迅速建立起零拷貝的概念,我們拿一個常用的場景進行引入。

本文探討Linux中 主要的幾種零拷貝技術 以及零拷貝技術 適用的場景 。為了迅速建立起零拷貝的概念,我們拿一個常用的場景進行引入:

引文

在寫一個服務端程序時(Web Server或者文件服務器),文件下載是一個基本功能。這時候服務端的任務是:將服務端主機磁盤中的文件不做修改地從已連接的socket發出去,我們通常用下面的代碼完成: 

  1. while((n = read(diskfd, buf, BUF_SIZE)) > 0)  
  2.       write(sockfd, buf , n); 

基本操作就是循環的從磁盤讀入文件內容到緩沖區,再將緩沖區的內容發送到socket。但是由于Linux的I/O操作默認是緩沖I/O。這里面主要使用的也就是read和write兩個系統調用,我們并不知道操作系統在其中做了什么。實際上在以上I/O操作中,發生了多次的數據拷貝。

當應用程序訪問某塊數據時,操作系統首先會檢查,是不是最近訪問過此文件,文件內容是否緩存在內核緩沖區,如果是,操作系統則直接根據read系統調用提供的buf地址,將內核緩沖區的內容拷貝到buf所指定的用戶空間緩沖區中去。如果不是,操作系統則首先將磁盤上的數據拷貝的內核緩沖區,這一步目前主要依靠DMA來傳輸,然后再把內核緩沖區上的內容拷貝到用戶緩沖區中。

接下來,write系統調用再把用戶緩沖區的內容拷貝到網絡堆棧相關的內核緩沖區中,最后socket再把內核緩沖區的內容發送到網卡上。說了這么多,不如看圖清楚:

數據拷貝

從上圖中可以看出,共產生了四次數據拷貝,即使使用了DMA來處理了與硬件的通訊,CPU仍然需要處理兩次數據拷貝,與此同時,在用戶態與內核態也發生了多次上下文切換,無疑也加重了CPU負擔。

在此過程中,我們沒有對文件內容做任何修改,那么在內核空間和用戶空間來回拷貝數據無疑就是一種浪費,而零拷貝主要就是為了解決這種低效性。

什么是零拷貝技術(zero-copy)?

零拷貝主要的任務就是避免CPU將數據從一塊存儲拷貝到另外一塊存儲,主要就是利用各種零拷貝技術,避免讓CPU做大量的數據拷貝任務,減少不必要的拷貝,或者讓別的組件來做這一類簡單的數據傳輸任務,讓CPU解脫出來專注于別的任務。這樣就可以讓系統資源的利用更加有效。

我們繼續回到引文中的例子,我們如何減少數據拷貝的次數呢?一個很明顯的著力點就是減少數據在內核空間和用戶空間來回拷貝,這也引入了零拷貝的一個類型:

讓數據傳輸不需要經過 user space。

使用 mmap

我們減少拷貝次數的一種方法是調用mmap()來代替read調用: 

  1. buf = mmap(diskfd, len);  
  2.  write(sockfd, buf, len); 

應用程序調用mmap(),磁盤上的數據會通過DMA被拷貝的內核緩沖區,接著操作系統會把這段內核緩沖區與應用程序共享,這樣就不需要把內核緩沖區的內容往用戶空間拷貝。應用程序再調用write(),操作系統直接將內核緩沖區的內容拷貝到socket緩沖區中,這一切都發生在內核態,最后,socket緩沖區再把數據發到網卡去。同樣的,看圖很簡單:

mmap

使用mmap替代read很明顯減少了一次拷貝,當拷貝數據量很大時,無疑提升了效率。但是使用mmap是有代價的。當你使用mmap時,你可能會遇到一些隱藏的陷阱。例如,當你的程序map了一個文件,但是當這個文件被另一個進程截斷(truncate)時, write系統調用會因為訪問非法地址而被SIGBUS信號終止。SIGBUS信號默認會殺死你的進程并產生一個coredump,如果你的服務器這樣被中止了,那會產生一筆損失。

通常我們使用以下解決方案避免這種問題:

1. 為SIGBUS信號建立信號處理程序

當遇到SIGBUS信號時,信號處理程序簡單地返回,write系統調用在被中斷之前會返回已經寫入的字節數,并且errno會被設置成success,但是這是一種糟糕的處理辦法,因為你并沒有解決問題的實質核心。

2. 使用文件租借鎖

通常我們使用這種方法,在文件描述符上使用租借鎖,我們為文件向內核申請一個租借鎖,當其它進程想要截斷這個文件時,內核會向我們發送一個實時的RTSIGNALLEASE信號,告訴我們內核正在破壞你加持在文件上的讀寫鎖。這樣在程序訪問非法內存并且被SIGBUS殺死之前,你的write系統調用會被中斷。write會返回已經寫入的字節數,并且置errno為success。

我們應該在mmap文件之前加鎖,并且在操作完文件后解鎖:   

  1. if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {  
  2.        perror("kernel lease set signal");  
  3.    return -1;  
  4.    }  
  5.    /* l_type can be F_RDLCK F_WRLCK  加鎖*/  
  6.    /* l_type can be  F_UNLCK 解鎖*/  
  7.    if(fcntl(diskfd, F_SETLEASE, l_type)){  
  8.        perror("kernel lease set type");  
  9.    return -1;  
  10.    } 

使用sendfile

從2.1版內核開始,Linux引入了sendfile來簡化操作: 

  1. #include<sys/sendfile.h>  
  2. ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count); 

系統調用sendfile()在代表輸入文件的描述符infd和代表輸出文件的描述符outfd之間傳送文件內容(字節)。描述符outfd必須指向一個套接字,而infd指向的文件必須是可以mmap的。這些局限限制了sendfile的使用,使sendfile只能將數據從文件傳遞到套接字上,反之則不行。

使用sendfile不僅減少了數據拷貝的次數,還減少了上下文切換,數據傳送始終只發生在kernel space。

sendfile系統調用過程

在我們調用sendfile時,如果有其它進程截斷了文件會發生什么呢?假設我們沒有設置任何信號處理程序,sendfile調用僅僅返回它在被中斷之前已經傳輸的字節數,errno會被置為success。如果我們在調用sendfile之前給文件加了鎖,sendfile的行為仍然和之前相同,我們還會收到RTSIGNALLEASE的信號。

目前為止,我們已經減少了數據拷貝的次數了,但是仍然存在一次拷貝,就是頁緩存到socket緩存的拷貝。那么能不能把這個拷貝也省略呢?

借助于硬件上的幫助,我們是可以辦到的。之前我們是把頁緩存的數據拷貝到socket緩存中,實際上,我們僅僅需要把緩沖區描述符傳到socket緩沖區,再把數據長度傳過去,這樣DMA控制器直接將頁緩存中的數據打包發送到網絡中就可以了。

總結一下,sendfile系統調用利用DMA引擎將文件內容拷貝到內核緩沖區去,然后將帶有文件位置和長度信息的緩沖區描述符添加socket緩沖區去,這一步不會將內核中的數據拷貝到socket緩沖區中,DMA引擎會將內核緩沖區的數據拷貝到協議引擎中去,避免了最后一次拷貝。

帶DMA的sendfile

不過這一種收集拷貝功能是需要硬件以及驅動程序支持的。

使用splice

sendfile只適用于將數據從文件拷貝到套接字上,限定了它的使用范圍。Linux在2.6.17版本引入splice系統調用,用于在兩個文件描述符中移動數據:   

  1. #define _GNU_SOURCE         /* See feature_test_macros(7) */  
  2.    #include<fcntl.h>  
  3.    ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsignedint flags); 

splice調用在兩個文件描述符之間移動數據,而不需要數據在內核空間和用戶空間來回拷貝。他從fdin拷貝len長度的數據到fdout,但是有一方必須是管道設備,這也是目前splice的一些局限性。flags參數有以下幾種取值:

  •  SPLICEFMOVE :嘗試去移動數據而不是拷貝數據。這僅僅是對內核的一個小提示:如果內核不能從pipe移動數據或者pipe的緩存不是一個整頁面,仍然需要拷貝數據。Linux最初的實現有些問題,所以從2.6.21開始這個選項不起作用,后面的Linux版本應該會實現。
  •  SPLICEFNONBLOCK :splice 操作不會被阻塞。然而,如果文件描述符沒有被設置為不可被阻塞方式的 I/O ,那么調用 splice 有可能仍然被阻塞。
  •  SPLICEFMORE:后面的splice調用會有更多的數據。

splice調用利用了Linux提出的管道緩沖區機制, 所以至少一個描述符要為管道。

以上幾種零拷貝技術都是減少數據在用戶空間和內核空間拷貝技術實現的,但是有些時候,數據必須在用戶空間和內核空間之間拷貝。這時候,我們只能針對數據在用戶空間和內核空間拷貝的時機上下功夫了。Linux通常利用寫時復制(copy on write)來減少系統開銷,這個技術又時常稱作COW。

由于篇幅原因,本文不詳細介紹寫時復制。大概描述下就是:如果多個程序同時訪問同一塊數據,那么每個程序都擁有指向這塊數據的指針,在每個程序看來,自己都是獨立擁有這塊數據的,只有當程序需要對數據內容進行修改時,才會把數據內容拷貝到程序自己的應用空間里去,這時候,數據才成為該程序的私有數據。如果程序不需要對數據進行修改,那么永遠都不需要拷貝數據到自己的應用空間里。這樣就減少了數據的拷貝。寫時復制的內容可以再寫一篇文章了。。。

除此之外,還有一些零拷貝技術,比如傳統的Linux I/O中加上O_DIRECT標記可以直接I/O,避免了自動緩存,還有尚未成熟的fbufs技術,本文尚未覆蓋所有零拷貝技術,只是介紹常見的一些,如有興趣,可以自行研究,一般成熟的服務端項目也會自己改造內核中有關I/O的部分,提高自己的數據傳輸速率。 

 

責任編輯:龐桂玉 來源: 民工哥技術之路
相關推薦

2020-07-06 15:10:05

Linux拷貝代碼

2022-05-05 13:57:43

Buffer設備MYSQL

2020-02-28 19:10:40

Linux零拷貝原理

2009-05-19 17:28:44

深拷貝淺拷貝clone()

2019-08-01 11:04:10

Linux磁盤I

2022-09-23 08:47:01

DMA網卡CPU

2024-02-22 12:20:23

Linux零拷貝技術

2021-08-26 06:57:53

零拷貝技術磁盤

2022-09-27 13:34:49

splice零拷貝原理

2020-11-27 09:20:56

零拷貝底層技術

2024-06-07 08:10:14

Netty操作系統零拷貝

2011-07-28 13:08:51

2011-04-13 15:03:25

NATlP

2024-11-28 10:40:26

零拷貝技術系統

2021-03-12 13:57:13

零拷貝技術

2024-06-24 00:09:00

零拷貝技術MMapsendFile

2024-12-04 14:45:14

零拷貝技術CPU 拷貝Zero-copy

2019-09-23 08:46:04

零拷貝 CPU內存

2021-01-08 06:15:09

深拷貝淺拷貝寫時拷貝

2009-03-13 13:46:41

.NETServer push服務端
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产视频在线一区二区 | 久久亚洲综合 | 免费一区二区三区 | 国产亚洲精品精品国产亚洲综合 | 国产三级日本三级 | 久久国产成人午夜av影院武则天 | 欧美国产在线一区 | 久久精品一区 | 亚洲精品1区 | 91视频一区二区三区 | 久久久久9999亚洲精品 | 欧美综合一区二区三区 | 久久精品二区 | 久久亚洲精品视频 | 久草视 | 成人在线观看免费 | 久久久久久国产精品免费免费 | 一区二区视屏 | 91久久综合亚洲鲁鲁五月天 | 欧美理伦片在线播放 | 精品国产乱码一区二区三 | 91色综合 | 久久久久久a | 99成人 | 中文字幕成人av | 在线不卡视频 | 在线观看成人免费视频 | 国产免费av在线 | 精久久久 | 少妇性l交大片免费一 | 国产精品一区久久久 | 99久久婷婷国产综合精品首页 | 天天操夜夜骑 | 中文字幕av一区 | 日韩一区二区精品 | a级在线免费观看 | 97狠狠干 | 91资源在线 | av一区在线 | 欧美成人精品欧美一级 | 国产农村一级国产农村 |