大多數(shù)程序員并不知道,負載均衡器LVS是個啥?
1. Linux Virtual Server項目
針對高可伸縮、高可用網(wǎng)絡服務的需求,我們給出了基于IP層和基于內(nèi)容請求分發(fā)的負載平衡調(diào)度解決方法,并在Linux內(nèi)核中實現(xiàn)了這些方法,將一組服務器構(gòu)成一個實現(xiàn)可伸縮的、高可用網(wǎng)絡服務的虛擬服務器。
虛擬服務器的體系結(jié)構(gòu)如圖2所示,一組服務器通過高速的局域網(wǎng)或者地理分布的廣域網(wǎng)相互連接,在它們的前端有一個負載調(diào)度器(Load Balancer)。負載調(diào)度器能無縫地將網(wǎng)絡請求調(diào)度到真實服務器上,從而使得服務器集群的結(jié)構(gòu)對客戶是透明的,客戶訪問集群系統(tǒng)提供的網(wǎng)絡服務就像訪 問一臺高性能、高可用的服務器一樣。客戶程序不受服務器集群的影響不需作任何修改。系統(tǒng)的伸縮性通過在服務機群中透明地加入和刪除一個節(jié)點來達到,通過檢 測節(jié)點或服務進程故障和正確地重置系統(tǒng)達到高可用性。由于我們的負載調(diào)度技術是在Linux內(nèi)核中實現(xiàn)的,我們稱之為Linux虛擬服務器(Linux Virtual Server)。

圖2:虛擬服務器的結(jié)構(gòu)
在1998年5月,我成立了Linux Virtual Server的自由軟件項目,進行Linux服務器集群的開發(fā)工作。同時,Linux Virtual Server項目是國內(nèi)最早出現(xiàn)的自由軟件項目之一。
Linux Virtual Server項目的目標 :使用集群技術和Linux操作系統(tǒng)實現(xiàn)一個高性能、高可用的服務器,它具有很好的可伸縮性(Scalability)、可靠性(Reliability)和可管理性(Manageability)。
目前,LVS項目已提供了一個實現(xiàn)可伸縮網(wǎng)絡服務的Linux Virtual Server框架,如圖3所示。在LVS框架中,提供了含有三種IP負載均衡技術的IP虛擬服務器軟件IPVS、基于內(nèi)容請求分發(fā)的內(nèi)核Layer-7交 換機KTCPVS和集群管理軟件。可以利用LVS框架實現(xiàn)高可伸縮的、高可用的Web、Cache、Mail和Media等網(wǎng)絡服務;在此基礎上,可以開 發(fā)支持龐大用戶數(shù)的、高可伸縮的、高可用的電子商務應用。

圖3:Linux虛擬服務器框架
3.1 IP虛擬服務器軟件IPVS
在調(diào)度器的實現(xiàn)技術中,IP負載均衡技術是效率最高的。在已有的IP負載均衡技術中有通過網(wǎng)絡地址轉(zhuǎn)換(Network Address Translation)將一組服務器構(gòu)成一個高性能的、高可用的虛擬服務器,我們稱之為VS/NAT技術(Virtual Server via Network Address Translation),大多數(shù)商品化的IP負載均衡調(diào)度器產(chǎn)品都是使用此方法,如Cisco的LocalDirector、F5的Big/IP和 Alteon的ACEDirector。在分析VS/NAT的缺點和網(wǎng)絡服務的非對稱性的基礎上,我們提出通過IP隧道實現(xiàn)虛擬服務器的方法VS/TUN (Virtual Server via IP Tunneling),和通過直接路由實現(xiàn)虛擬服務器的方法VS/DR(Virtual Server via Direct Routing),它們可以極大地提高系統(tǒng)的伸縮性。所以,IPVS軟件實現(xiàn)了這三種IP負載均衡技術,它們的大致原理如下(我們將在其他章節(jié)對其工作原 理進行詳細描述),
Virtual Server via Network Address Translation(VS/NAT)
通過網(wǎng)絡地址轉(zhuǎn)換,調(diào)度器重寫請求報文的目標地址,根據(jù)預設的調(diào)度算法,將請求分派給后端的真實服務器;真實服務器的響應報文通過調(diào)度器時,報文的源地址被重寫,再返回給客戶,完成整個負載調(diào)度過程。
Virtual Server via IP Tunneling(VS/TUN)
采用NAT技術時,由于請求和響應報文都必須經(jīng)過調(diào)度器地址重寫,當客戶請求越來越多時,調(diào)度器的處理能力將成為瓶頸。為了解決這個問題,調(diào)度器把請求報 文通過IP隧道轉(zhuǎn)發(fā)至真實服務器,而真實服務器將響應直接返回給客戶,所以調(diào)度器只處理請求報文。由于一般網(wǎng)絡服務應答比請求報文大許多,采用 VS/TUN技術后,集群系統(tǒng)的最大吞吐量可以提高10倍。
Virtual Server via Direct Routing(VS/DR)
VS/DR通過改寫請求報文的MAC地址,將請求發(fā)送到真實服務器,而真實服務器將響應直接返回給客戶。同VS/TUN技術一樣,VS/DR技術可極大地 提高集群系統(tǒng)的伸縮性。這種方法沒有IP隧道的開銷,對集群中的真實服務器也沒有必須支持IP隧道協(xié)議的要求,但是要求調(diào)度器與真實服務器都有一塊網(wǎng)卡連 在同一物理網(wǎng)段上。
針對不同的網(wǎng)絡服務需求和服務器配置,IPVS調(diào)度器實現(xiàn)了如下八種負載調(diào)度算法:
輪叫(Round Robin)
調(diào)度器通過"輪叫"調(diào)度算法將外部請求按順序輪流分配到集群中的真實服務器上,它均等地對待每一臺服務器,而不管服務器上實際的連接數(shù)和系統(tǒng)負載。
加權(quán)輪叫(Weighted Round Robin)
調(diào)度器通過"加權(quán)輪叫"調(diào)度算法根據(jù)真實服務器的不同處理能力來調(diào)度訪問請求。這樣可以保證處理能力強的服務器處理更多的訪問流量。調(diào)度器可以自動問詢真實服務器的負載情況,并動態(tài)地調(diào)整其權(quán)值。
最少鏈接(Least Connections)
調(diào)度器通過"最少連接"調(diào)度算法動態(tài)地將網(wǎng)絡請求調(diào)度到已建立的鏈接數(shù)最少的服務器上。如果集群系統(tǒng)的真實服務器具有相近的系統(tǒng)性能,采用"最小連接"調(diào)度算法可以較好地均衡負載。
加權(quán)最少鏈接(Weighted Least Connections)
在集群系統(tǒng)中的服務器性能差異較大的情況下,調(diào)度器采用"加權(quán)最少鏈接"調(diào)度算法優(yōu)化負載均衡性能,具有較高權(quán)值的服務器將承受較大比例的活動連接負載。調(diào)度器可以自動問詢真實服務器的負載情況,并動態(tài)地調(diào)整其權(quán)值。
基于局部性的最少鏈接(Locality-Based Least Connections)
"基于局部性的最少鏈接" 調(diào)度算法是針對目標IP地址的負載均衡,目前主要用于Cache集群系統(tǒng)。該算法根據(jù)請求的目標IP地址找出該目標IP地址最近使用的服務器,若該服務器 是可用的且沒有超載,將請求發(fā)送到該服務器;若服務器不存在,或者該服務器超載且有服務器處于一半的工作負載,則用"最少鏈接"的原則選出一個可用的服務 器,將請求發(fā)送到該服務器。
帶復制的基于局部性最少鏈接(Locality-Based Least Connections with Replication)
"帶復制的基于局部性最少鏈接"調(diào)度算法也是針對目標IP地址的負載均衡,目前主要用于Cache集群系統(tǒng)。它與LBLC算法的不同之處是它要維護從一個 目標IP地址到一組服務器的映射,而LBLC算法維護從一個目標IP地址到一臺服務器的映射。該算法根據(jù)請求的目標IP地址找出該目標IP地址對應的服務 器組,按"最小連接"原則從服務器組中選出一臺服務器,若服務器沒有超載,將請求發(fā)送到該服務器,若服務器超載;則按"最小連接"原則從這個集群中選出一 臺服務器,將該服務器加入到服務器組中,將請求發(fā)送到該服務器。同時,當該服務器組有一段時間沒有被修改,將最忙的服務器從服務器組中刪除,以降低復制的 程度。
目標地址散列(Destination Hashing)
"目標地址散列"調(diào)度算法根據(jù)請求的目標IP地址,作為散列鍵(Hash Key)從靜態(tài)分配的散列表找出對應的服務器,若該服務器是可用的且未超載,將請求發(fā)送到該服務器,否則返回空。
源地址散列(Source Hashing)
"源地址散列"調(diào)度算法根據(jù)請求的源IP地址,作為散列鍵(Hash Key)從靜態(tài)分配的散列表找出對應的服務器,若該服務器是可用的且未超載,將請求發(fā)送到該服務器,否則返回空。
3.2 內(nèi)核Layer-7交換機KTCPVS
在基于IP負載調(diào)度技術中,當一個TCP連接的初始SYN報文到達時,調(diào)度器就選擇一臺服務器,將報文轉(zhuǎn)發(fā)給它。此后通過查發(fā)報文的IP和TCP報文頭地 址,保證此連接的后繼報文被轉(zhuǎn)發(fā)到該服務器。這樣,IPVS無法檢查到請求的內(nèi)容再選擇服務器,這就要求后端服務器組提供相同的服務,不管請求被發(fā)送到哪 一臺服務器,返回結(jié)果都是一樣的。但是,在有些應用中后端服務器功能不一,有的提供HTML文檔,有的提供圖片,有的提供CGI,這就需要基于內(nèi)容的調(diào)度 (Content-Based Scheduling)。
由于用戶空間TCP Gateway的開銷太大,我們提出在操作系統(tǒng)的內(nèi)核中實現(xiàn)Layer-7交換方法,來避免用戶空間與核心空間的切換和內(nèi)存復制的開銷。在Linux操作系統(tǒng)的內(nèi)核中,我們實現(xiàn)了Layer-7交換,稱之為KTCPVS(Kernel TCP Virtual Server)。目前,KTCPVS已經(jīng)能對HTTP請求進行基于內(nèi)容的調(diào)度,但它還不很成熟,在其調(diào)度算法和各種協(xié)議的功能支持等方面,有大量的工作需要做。
雖然應用層交換處理復雜,它的伸縮性有限,但應用層交換帶來以下好處:
- 相同頁面的請求被發(fā)送到同一服務器,可以提高單臺服務器的Cache命中率。
- 一些研究[5]表明WEB訪問流中存在局部性。Layer-7交換可以充分利用訪問的局部性,將相同類型的請求發(fā)送到同一臺服務器,使得每臺服務器收到的請求具有更好的相似性,可進一步提高單臺服務器的Cache命中率。
- 后端服務器可運行不同類型的服務,如文檔服務,圖片服務,CGI服務和數(shù)據(jù)庫服務等。
2. LVS集群的特點
LVS集群的特點可以歸結(jié)如下:
功能
有實現(xiàn)三種IP負載均衡技術和八種連接調(diào)度算法的IPVS軟件。在IPVS內(nèi)部實現(xiàn)上,采用了高效的Hash函數(shù)和垃圾回收機制,能正確處理所調(diào)度報文相 關的ICMP消息(有些商品化的系統(tǒng)反而不能)。虛擬服務的設置數(shù)目沒有限制,每個虛擬服務有自己的服務器集。它支持持久的虛擬服務(如HTTP Cookie和HTTPS等需要該功能的支持),并提供詳盡的統(tǒng)計數(shù)據(jù),如連接的處理速率和報文的流量等。針對大規(guī)模拒絕服務(Deny of Service)攻擊,實現(xiàn)了三種防衛(wèi)策略。
有基于內(nèi)容請求分發(fā)的應用層交換軟件KTCPVS,它也是在Linux內(nèi)核中實現(xiàn)。有相關的集群管理軟件對資源進行監(jiān)測,能及時將故障屏蔽,實現(xiàn)系統(tǒng)的高可用性。主、從調(diào)度器能周期性地進行狀態(tài)同步,從而實現(xiàn)更高的可用性。
適用性
后端服務器可運行任何支持TCP/IP的操作系統(tǒng),包括Linux,各種Unix(如FreeBSD、Sun Solaris、HP Unix等),Mac/OS和Windows NT/2000等。
負載調(diào)度器能夠支持絕大多數(shù)的TCP和UDP協(xié)議:
協(xié)議內(nèi) 容TCPHTTP,F(xiàn)TP,PROXY,SMTP,POP3,IMAP4,DNS,LDAP,HTTPS,SSMTP等UDPDNS,NTP,ICP,視頻、音頻流播放協(xié)議等無需對客戶機和服務器作任何修改,可適用大多數(shù)Internet服務。
性能
LVS服務器集群系統(tǒng)具有良好的伸縮性,可支持幾百萬個并發(fā)連接。配置100M網(wǎng)卡,采用VS/TUN或VS/DR調(diào)度技術,集群系統(tǒng)的吞吐量可高達1Gbits/s;如配置千兆網(wǎng)卡,則系統(tǒng)的最大吞吐量可接近10Gbits/s。
可靠性
LVS服務器集群軟件已經(jīng)在很多大型的、關鍵性的站點得到很好的應用,所以它的可靠性在真實應用得到很好的證實。有很多調(diào)度器運行一年多,未作一次重啟動。
軟件許可證
LVS集群軟件是按GPL(GNU Public License)許可證發(fā)行的自由軟件,這意味著你可以得到軟件的源代碼,有權(quán)對其進行修改,但必須保證你的修改也是以GPL方式發(fā)行。