企業關鍵任務為何轉移至X86平臺
關鍵任務(Mission Critical)指那些除了計劃內的停機,需要7x24小時不間斷工作的業務,比如醫療系統、證券交易、電信系統、金融分析、航空管理系統等等。這些社會服務類的業務一點出現意外中斷,對社會造成的不良影響以及造成的損失都是巨大的。比如據Qualix Group統計,1分鐘的宕機平均會使運輸業損失15萬美元,銀行業損失27萬美元,通信業損失35萬美元,制造業損失42萬美元,而證券業損失高達45萬美元。
x86蠶食RISC市場
業務的不間斷性要求承載關鍵業務的服務器需要高度的可用性和可靠性,比如某國有大型銀行的業務系統要求高端服務器系統的可用度達到99.999%,計算下來每年停機不過5分鐘。這樣的可靠性和可用性是傳統的x86服務器無法達到的,所以一直以來在金融、電信、能源、交通等關鍵應用領域,后臺中樞服務器常常由帶有容錯功能的高端RISC服務器來擔當。
高端RISC服務器和x86服務器最為本質的區別在于具備RAS特性,即Reliability, Availability, Serviceability:可靠性、可用性、可維護性,來滿足關鍵任務應用的需求。另外,在可擴展性上,RISC服務器通??梢灾С?至64顆處理器,而以往的x86平臺在擴展性上遠遠不及,由于CPU設計的局限性和主板布線困難等原因,x86平臺很難擴充到8路以上,在性能上也無法和RISC服務器相媲美。
不過,x86平臺近年來發展迅速,在核心和線程數量上不斷激增,性能和擴展能力都在不斷增強,在應用上也日趨靈活廣泛,在價格上也要更加低廉,逐漸對RISC造成了威脅。雖然RISC服務器的應用和解決方案已經比較成熟,關鍵任務用戶為了業務的正常運行并不會輕易進行平臺的遷移。
不過從市場的表現來看,RISC服務器已經不復輝煌,連年呈現下滑趨勢。據IDC的報告,從2000年到2008年,RISC市場基本都出現了下滑,2008年RISC處理器出貨量甚至不足2000年的一半。而在2009年的Gartner服務器市場調研報告中,第四季度全球RISC和安騰芯片的Unix服務器出貨量稍有增長,但銷售額下降了20%。
雖然x86服務器至今還無法取代RISC,但逐漸滲透RISC把控的高端市場已經成為一種趨勢。而英特爾至強7500平臺的問世,讓這種趨勢更加的明顯。
今年3月,英特爾推出了具有劃時代意義的至強7500服務器處理器平臺。至強7500核心代號“Nehalem-EX”,是迄今為止英特爾至強家族中最具擴展性、最高性能、最為“智能”的的服務器處理器。最為核心的,至強7500引入了20多個移植自安騰平臺的RAS特性——這是之前的x86處理器所不具備的。至強7500的發布,將x86服務器的可靠性推進到一個新的高度,足以媲美高端RISC服務器,劍鋒直指關鍵任務領域。
#p#
至強7500:前所未有的可擴展性
RISC服務器的擴展性是以往的x86處理器難以望其項背的,至強7500的出現打破了這種局面,這要歸功于先進的QuickPath互聯架構。至強7500具有4條速率高達6.4GT/s(每秒傳輸6.4G次,雙向傳輸速度為25.6GB/s)的QPI總線,使得至強7500可以在沒有節點控制器的前提下構建8路系統,結合第三方控制器,可以擴充到16路甚至32路。至強7500處理器最高具有8個核心,通過英特爾超線程技術支持16個線程,可以輕易組建8路128線程的多路多線程SMP系統。
前所未有的擴展性
可以看到,在擴展性上至強7500相比之前的x86平臺有了質的飛躍,相比RISC系統也是不遑多讓。帶寬也曾經是讓x86的一個短板,至強7500在這方面有了新的進步——集成四通道內存控制器,采用DDR3-1066規格內存,具備6.4GT/s的QPI總線速率,使內存帶寬提高到至強7400平臺的9倍!Nehalem-EX主要是面向的是大型虛擬化整合、ERP、數據庫類的應用,在數據庫性能上,相對至強的7400平臺提升了2.5倍。由此可見,至強7500打造的多核多路系統已經具備了和RISC競爭的能力。
#p#
媲美RISC的RAS特性
RAS特性(Reliability, Availability and Serviceability,可靠性、可用性與可維護性)具體來說,可靠性要求計算機能夠持續運轉,從來不停機??捎眯砸笾匾Y源都有備份,能夠檢測到潛在要發生的問題,并且能夠轉移其上正在運行的任務到其它資源,以減少停機時間,保持生產的持續運轉,并具有實時在線維護和延遲性維護功能。服務性要求能夠實時在線診斷,精確定位出根本問題所在,做到準確無誤的快速修復。
至強7500的橫空出世讓x86服務器在關鍵任務領域的境況大為改觀。英特爾為至強7500引入了移植自安騰處理器的RAS特性。據英特爾介紹,至強7500擁有x86系統里最高級別的RAS,和RISC小型機相比,在RAS方面已經差距不大。其中最為重要的就是自動檢驗架構(MCA,Machine Check Architecture)恢復功能。
MCA恢復功能是安騰平臺上的特性,功能是在不需要系統停機的情況下監測和糾正CPU、內存和互聯架構中的錯誤。這對虛擬化環境而言非常重要,使得一臺運行多個虛擬機的物理服務器不需要關機來查找錯誤,而只需要關閉或遷移其中部分虛擬機,保證整個系統的正常運行。MCA恢復是一個系統級別的RAS特性,不僅包括CPU、內存和I/O,還需要操作系統的支持,目前VMware ESX和Windows Server 2008 R2、Novell SUSE Linux和Red Hat Enterprise Linux等系統都已經可以支持這一特性。
當然,至強7500所具備的RAS特性并不僅僅是MCA恢復,而是包含三大部分:數據保護、增加可用性、最小化宕機時間,總共具備22條,下面來具體看一下:
至強7500 RAS特性 | 類別 | 目標 | 特性 |
---|---|---|---|
保護數據 | 降低關鍵級別的錯誤;通過系統檢測數據錯誤;限制錯誤產生的影響; | Parity checking and ECC | |
Memory Themal Throttling | |||
Memory demand & patrol scrubbing | |||
Corrupt data containment | |||
QPI viral mode | |||
QPI rolling CRC | |||
增加可用性 | 恢復失效的數據鏈接;從失效的CPU&內存中遷移負載;從無法修正的數據錯誤中恢復;預測失效發生; | Intel SMI Lane Failover | |
Intel SMI Clock Failover | |||
Intel SMI & QPI Packet Retry | |||
QPI Clock Failover | |||
QPI Self-Healing | |||
SDDC plus random bit error recovery | |||
Memory Mirroring | |||
Memory DIMM and Rank Sparing | |||
Dynamic CPU and memory migration | |||
MCA-recovery with OS support | |||
最小化宕機時間 | 分區模塊化;替換失效組件 | Static System partitioning | |
MCA error logging (CMCI) with OS predictive failure analysis | |||
Physical Memory Board Hot Add/remove | |||
Dynamic/OS Memory On-lining(capacity change) | |||
Physical CPU Board Hot Add/remove | |||
OS CPU on-lining(capacity change) |
由此可見,具有彈性的高可擴展性、結合豐富的RAS特性,讓至強7500在關鍵任務中具備了媲美RISC小型機的能力。再加上更具競爭力的價格,至強7500平臺無疑可以成為吸引RISC用戶進行遷移的一大利器。如今,至強7500服務器產品已經非常豐富,包括IBM、HP、DELL、富士通、浪潮等國際國內服務器廠商已經紛紛加入至強7500陣營,如IBM X5架構的四路系統System X3850、浪潮八路天梭TS850等,均將目光投入了以往x86所難以企及的關鍵任務領域。
【編輯推薦】