十大主流Nehalem服務器橫評(多圖)
一年前,Intel英特爾在服務器領域發布了叫做Nehalem-EP的處理器。它在Penryn的基礎上進行微架構的改進,實際上,它架構上的變化是更大的。從原有的架構變成了現在的直聯架構。Nehalem架構也成為了其之后處理器系列的基礎架構。
Tick-Tock:Merom跟著Penryn,然后Nehalem后面是Westmere,后面是Sandy Bridge,再往后是Ivy Bridge,再之后是Haswell
新的處理器總是會比舊的處理器更強或者更省電,Nehalem的情況比較特別,它的性能提升太大了。我們搜羅了前一年內失眠上存在的多款基于Nehalem系列處理器的服務器,這樣我們可以看到,Nehalem在性能上,在市場上具有一個什么樣的表現。#p#
相對于上一代45nm Harptertown處理器,Nehalem-EP(Gainestown)在架構方面具有了翻天覆地的變化,原有的需要經過北橋MCH芯片才能進行的內存操作現在在CPU內部就可以直接進行,此外,CPU與CPU之間現在也有了直接的通道:

Nehalem:直聯架構
Nehalem-EP Xeon X5570
包括Nehalem-EP在內的Nehalem架構,其內存存取帶寬和延遲同時得到了提升,在內存密集型的應用上,效果將會非常明顯。
Nehalem微架構
總結起來,Nehalem-EP/Gainestown比Penryn/Harperton具備的主要優勢有三點:
IMC:CISC的x86架構對緩存/內存帶寬極度渴求,集成內存控制器讓處理器避開了訪問內存需要通過FSB總線的限制,并將帶寬提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每處理器,極大提升了Nehalem處理器的內存帶寬,對服務器應用提升巨大。
QPI:新的點對點總線帶寬更高,并且讓處理器之間可以直接連接,避免了共享的FSB總線在處理器核心過多時的效率急劇下降,更適合擴展到大規模并行系統。同樣處理器數量下,QPI點對點形成的ccNUMA拓撲比共享FSB的星型總線具有更高的效率。
![]() |
雖然SMT有不少處理器采用,AMD的Bulldozer也有所采用(和Intel的不太一樣)
HTT:超線程技術在打游戲的時候或許看不出有作用,不過在企業級別應用上效果明顯。特別適合吞吐量型的計算。#p#
通常,新一代的平臺包含新的處理器和新的芯片組,Nehalem平臺也是這樣(除了現在的Westmere-EP平臺的芯片組仍然和Nehalem-EP一樣之外)。由于架構變化太大,新的處理器/芯片組和老的平臺互不兼容。
Intel Tylersburg-EP芯片組
不考慮桌面平臺,新的Tylersburg-EP芯片組是為5500系列(單路平臺則為3400系列),包含了兩個型號:5520和5500,也就是Tylersburg-36D和Tylersburg-24D,和之前的5000系列芯片組北橋被稱為MCH不同,現在的5500系列北橋被成為IOH(I/O Hub),它不再帶有內存控制器,主要功能是IO,Tylersburg-36D和Tylersburg-24D分別提供了36和24的PCIe 2.0 Lanes。除了提供PCIe接口之外,IOH還提供了連接處理器的QPI和連接南橋的ESI,實際上,ESI也就是一個PCIe 1.0 x4接口。

Intel Penryn-EP/Harpertown平臺架構,搭建的芯片組為5000系列

Intel Nehalem-EP/Gainestown平臺架構,搭建的芯片組為5500系列
Tylersburg還帶來了這樣的雙IOH配置,總平臺可以提供78個PCIe Lanes(6 Gen 1,72 Gen 2)
Tylersburg-36D/5520提供了36 PCIe 2.0 Lanes,通常,在桌面上的話,可以配置為兩個x16和1個x4這樣的組合,連接兩個顯卡以及連接一塊高速網卡或者告訴存儲控制卡/陣列卡。對于服務器來說,通常不需要x16的顯卡設備,在這種情況下,Tylersburg-36D可以配置為9個PCIe x4接口,提供極強的IO連接能力。Tylersburg-24D則只能提供24個PCIe 2.0 Lanes,其他和Tylersburg-36D一樣。
在IO擴展特性上,Tylersburg提供了Crystal Beach DMA Engine,支持8個通道的IOAT(主要用來提升網絡性能)。Tylersburg還提供了第二代的VT-d(IO設備虛擬化)能力。
還有一個比較少提到的是,Tylersburg增加了對管理能力的支持,它集成了一個iME(Integrated Manageability Engine,集成管理引擎),提供一個獨立的、帶外通信的管理單元。實際上它是一個小的ARM處理器,并可以外接DDR2內存。很多Nehalem服務器都帶了Intel Intelligent Power Node Manager功能,它可以監控、監管服務器的功耗以及其他數據,這個功能就通過Tylersburg的iME部件實現。#p#
一、性能驗證
我們對實驗室的服務器測試平臺進行了大幅度的升級,先是將已有的Cisco Catalyst 4506千兆交換機升級到3個模塊,達到了一共120個千兆網絡端口,還新購買了30臺DELL PowerEdge T100服務器,配合原有的30臺DELL PowerEdge SC430服務器以及30臺PC作為網絡測試的客戶端,可以提供非常充足的測試壓力。

網絡實驗室控制臺

網絡實驗室機房

Cisco Catalyst 4506千兆交換機,120個千兆銅口

部分Dell PowerEdge SC430服務器
-
SPECCPU2006 v1.0.1
SPEC是標準性能評估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計算機廠商、系統集成商、大學、研究機構、咨詢等多家公司組成的非營利性組織,這個組織的目標是建立、維護一套用于評估計算機系統的標準。
SPEC CPU 2006是SPEC組織推出的CPU子系統評估軟件最新版,我們之前使用的是SPEC CPU 2000。和上一個版本一樣,SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,前者用于測量和對比整數性能,而后者則用于測量和對比浮點性能,SPEC CPU 2006中對SPEC CPU 2000中的一些測試進行了升級,并拋棄/加入了一些測試,因此兩個版本測試得分并沒有可比較性。
SPEC CPU測試中,測試系統的處理器、內存子系統和使用到的編譯器(SPEC CPU提供的是源代碼,并且允許測試用戶進行一定的編譯優化)都會影響最終的測試性能,而I/O(磁盤)、網絡、操作系統和圖形子系統對于SPEC CPU2006的影響非常的小。
SPECfp測試過程中同時執行多個實例(instance),測量系統執行計算密集型浮點操作的能力,比如CAD/CAM、DCC以及科學計算等方面應用可以參考這個結果。SPECint測試過程中同時執行多個實例(instances),然后測試系統同時執行多個計算密集型整數操作的能力,可以很好的反映諸如數據庫服務器、電子郵件服務器和Web服務器等基于整數應用的多處理器系統的性能。
我們在被測服務器中統一安裝了Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler這兩款SPEC CPU2006必需的編譯器,并使用配合Nehalem架構出現的QxSSE4.2編譯參數。我們另外安裝了Microsoft Visual Studio 2005 SP1提供必要的庫文件。按照SPEC的要求我們根據自己的情況編輯了新的Config文件,使用了較多的編譯選項。我們根據被測系統選擇實際可同時處理的線程數量,最后得到SPEC rate base測試結果(基于base標準編譯,SPEC base rate測試代表系統同時處理多個任務的能力)。
和其它測試部件不同,SPEC CPU 2006需要大量的系統物理內存,我們的SPEC測試在64bit的Windows Server 2008 Enterprise SP2下完成,對每一個測試的邏輯CPU,需要分配約1.5GB的內存,對于雙路四核心八線程的Nehalem-EP而言,需要24GB的總內存容量。
-
SiSoftware Sandra v2009
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統上的分析軟件,這款軟件可以對于系統進行方便、快捷的基準測試,還可以用于查看系統的軟件、硬件等信息。從2007開始,Sandra的Arithmetic benchmarks增加了對SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了對于SSE4的支持,另外還升級了File System benchmark和Removable Storage benchmark兩個子項目。對于新的硬件的支持當然也是該軟件每次升級的重要內容之一。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優化,最高可支持32/64路平臺,這也是我們選擇這款軟件的原因之一。
-
NetBench v7.03
NetBench是針對文件服務器的性能測試軟件,影響NetBench性能的主要是服務器的磁盤子系統,服務器磁盤控制器、條帶大小、讀寫緩存、硬盤類型、組建磁盤陣列模式、內存容量、網絡拓樸結構等都會對測試結果有明顯的影響。我們在被測服務器上設立了文件服務器,NetBench通過網絡實驗室中60個客戶端來模擬網絡中的PC向文件服務器所發出的文件傳輸請求,文件服務器則將存儲在磁盤上的文件數據發送給相應的客戶端。在測試過程中,客戶端會以每四臺一組的步進依次增加并且向服務器發送文件傳輸請求,測試結束后控制臺收集數據并繪制出服務器的數據傳輸變化曲線。
-
Benchmarkfactory 4.6
大部分的服務器應用都同數據庫有著密切的聯系,因此我們今年開始著手在在服務器測試中加入對于數據庫性能的測試。我們選擇了Benchmark Factory 4.6軟件和Microsoft SQL2000 SP4來測試不同的硬件平臺在數據庫應用中的表現。
我們選擇了BF內置的標準測試腳本AS3AP,這項測試可用于對于ANSI結構化查詢語言(SQL)關系型數據庫進行測試,它可用于測試DBMS(單用戶微機數據庫管理系統),也可用于測試高性能并行或者分布式數據庫。
-
系統功耗監測
我們使用UNI-T UT71E智能數字萬用表對于被測服務器系統的整體功耗進行了監測,利用隨機附帶的接口程序,我們可以記錄被測服務器任意時間段內的功率變化。
二、主要規格和技術驗證
這個部分主要對于送測服務器的物理特性、硬件配置等等進行考察、評估,比如服務器機箱架構、規格尺寸、處理器型號/數量/主頻、芯片組、內存型號和容量、磁盤控制器、硬盤型號、磁盤陣列、網卡型號和接口類型、散熱設備、供電、擴展槽、IO接口、托架數量等等。此外還對于處理器技術(SMP技術、HT技術、EMT64、多核)、內存技術(雙/多通道、內存鏡像、內存熱備、內存偵錯/糾錯)、磁盤接口技術(SATA、SAS)、磁盤陣列技術(RAID 0、RAID 1、RAID 10、RAID 5)等等進行了全面的考查和驗證。#p#
如上表所示,除了我們的兩臺基準服務器之外,本次橫向評測活動共有8個廠商的10款主流產品,它們都是基于Intel的Nehalem Xeon處理器,其中,寶德PR2012NS定位是存儲服務器,而其他的都是通用服務器。
處理器方面,在這些服務器當中,其中有一臺是單路配置,其余的均為雙路配置(但是有一臺在測試的時候使用的是單路處理器配置)。它們分別是聯想T260 G2和寶德PR2012NS。
雖然都是Nehalem處理器,它們分成了兩個階層:550x和55x0兩種,前者表示5504、5506等處理器,如聯想T260 G2、航天聯志5241NR、華碩RS520-E6和華碩TS700-E6,后者則表示5520、5540、5570等處理器,10個產品中其余的6個產品都使用了這種配置。550x和55x0有什么不同呢?前者不具備超線程技術和Turbo Boost技術,并且,頻率等方面也受到了限制,不過,其價格顯然要比55x0處理器要更低一些,如下表所示:
Nehalem-EP/Nehalem-WS Xeon規格對照表
芯片組方面,都是5500系列,但是聯想T260 G2、航天聯志5241NR、寶德PR2012NS這三個產品使用的是5500(Tylersburg-24D)。其它的都是5520(Tylersburg-36D)。這大概也代表了市場情況:大部分都使用了滿配置的芯片組,但是精簡的5500也不為少見。
浪潮NF5280:18個DIMM,36GB內存;如虛擬化、大型數據庫等應用需要大量的內存,NF5280能很好地適合這些應用
內存方面,每個Nehalem-EP處理器提供了三個內存通道,通常每個內存通道會提供兩個DIMM,10款產品中例外的是聯想T260 G2、寶德PR2012NS以及浪潮NF5280,前面兩個產品的情況是只提供了兩個內存通道,它們的定位偏向于存儲服務器或者入門級服務器;浪潮NF5280的情況是,它提供了18個DIMM,每通道提供三個DIMM,并插滿了內存,一共36GB。18個DIMM讓NF5280的最大內存支持容量比其他機器高出50%,達到了144GB。不過,Nehalem-EP有一個特性,就是只有在每個通道只插一個DIMM的時候可以達到DDR3-1333的速率,在兩個DIMM的情況下只能達到DDR3-1066,而在插滿三個DIMM下就只能達到DDR3-800了。因此,浪潮NF5280的36GB運行在DDR3-800下(NF5280的處理器X5570支持DDR3-1333),這會略微影響到性能。
10臺服務器當中,8臺使用了SAS硬盤,2臺使用了SATA硬盤:面向入門級應用的聯想T260 G2和定位為存儲服務器的寶德PR2012NS,后者采用了8個希捷的Barracuda ES.2組成一個RAID 5陣列,使用的陣列卡是Promise FastTrak EX8650。HP的DL380 G6還配置了一個SAS 6Gb/s的陣列卡,非常少見。通常,SAS 6Gb/s的陣列卡IO能力比通常的SAS 3Gb/s陣列卡明顯高出一籌。
網絡子系統上,10款服務器當中,有3款使用了Broadcom的BCM5709C,其余的均基于Intel芯片。DELL的R610和R710和HP的DL380 G6使用了Broadcom的解決方案,DELL服務器集成網卡基本上都是Broadcom。在7個基于Intel網絡芯片的平臺中,有5個使用了82574L芯片,有兩個使用了82576EB芯片。82576EB非常強大,支持8個RSS隊列和8個虛擬機設備隊列,82574L要弱不少,只支持兩個RSS隊列,勝在成本低廉。BCM5709C支持8個RSS隊列。#p#
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統上的分析軟件,它可以對于系統進行方便、快捷的基準測試,還可以用于查看系統的軟件、硬件等信息。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優化,最高可支持32/64路平臺。我們利用了其中多個性能測試模塊對于被測系統的性能進行了快速的測試。
有一點需要說明的是,Sandra的處理器架構性能測試是根據處理器所能支持的所有指令集中選擇進行的,不同的處理器支持的指令集不同,測試使用到的指令集也就不同。例如,Nehalem在這個測試當中就可以使用SSE4.2,而Penryn就只能使用SSE4.1。SiSoftware Sandra的測試傾向于“理論性”的性能測試。
很顯然,單路的T260 G2處理器性能排最末,領先的是三臺高配置機器:浪潮NF5280(X5570)、Intel Nehalem-EP樣機(X5570)、HP DL380 G6(X5540)。#p#
CineBench是基于Cinem4D工業三維設計軟件引擎的測試軟件,用來測試對象在進行三維設計時的性能,它可以同時測試處理器子系統、內存子系統以及顯示子系統,我們的平臺偏向于服務器多一些,因此就只有前兩個的成績具有意義。和大多數工業設計軟件一樣,CineBench可以完善地支持多核/多處理器,它的顯示子系統測試基于OpenGL。
和我們測試了Iometer但是沒有給出結果一樣,測試CineBench的目的在于多方面評估系統的性能,分析其他主要測試項目是否有偏差。
基本上和處理器的能力排序一致。#p#
從2007年開始,我們已經逐漸地將SEPC CPU2000測試過渡到SPEC CPU 2006,在本次橫評中我們利用這款軟件測試了所有參測服務器。SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,SPECfp測試過程中同時執行多個實例(instance),測量系統執行計算密集型浮點操作的能力,比如CAD/CAM、DCC以及科學計算等方面應用可以參考這個結果。SPECint測試過程中同時執行多個實例(instances),然后測試系統同時執行多個計算密集型整數操作的能力,可以很好的反映諸如數據庫服務器、電子郵件服務器和Web服務器等基于整數應用的多處理器系統的性能。
我們在被測服務器中統一安裝了Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler這兩款SPEC CPU2006必需的編譯器,通過QxSSE4.2編譯參數進行編譯(對于使用E5430的基準平臺1,使用QxSSE4.1編譯參數)。我們另外安裝了Microsoft Visual Studio 2005 SP1提供必要的庫文件。按照SPEC的要求我們根據自己的情況編輯了新的Config文件,使用了較多的編譯選項。我們根據被測系統選擇實際可同時處理的線程數量,最后得到SPEC rate base測試結果(基于base標準編譯,SPEC base rate測試代表系統同時處理多個任務的能力)。
寶德PR2012NS的定位是網絡存儲服務器,因此沒有進行SPEC CPU 2006測試。
就結果上看,由于配置了18個DIMM、36GB總容量而導致內存運行在DDR3-800的浪潮NF5280并沒有受到內存速率的拖累,反而由于內存量的變大,成績比起同樣CPU配置但是內存容量只有24GB的Nehalem-EP基準平臺要高不少,整數8.5%浮點3%。此外,在這個測試當中,單路/無超線程的配置得分和雙路/超線程的性能明顯處在不同層次。#p#
我們利用NetBench 7.03和Ent_dm.tst測試腳本模擬企業級文件服務器應用,通過60個客戶端讀寫被測服務器的共享目錄來考查被測服務器做為文件服務器時的表現。
影響這項測試的因素比較多,磁盤子系統性能(IO處理能力和吞吐量)、網絡連通能力等等,在這項測試中,HP的DL380 G6提供了最強勁的性能,并遙遙領先。它的磁盤配置并不是最強勁:三個萬轉SAS硬盤,它取得強勁性能表現的原因之一是它的SAS 6Gb/s陣列卡:
HP Smart Array P410陣列卡,提供8個SAS 6Gb/s接口,帶有BBU,支持RAID 5、6、50、60等各種亂七八糟的陣列方式,可以搭配256MB或者512MB容量的緩存
此外,HP DL380 G6采用的雙BCM5709C網卡也功不可沒,它比最常見的Intel 82574L要強不少,并且BCM5709C是雙口芯片,HP DL380 G6一共提供了四個千兆網口。使用單7200RPM SATA硬盤的T260 G2得分在最后面。
PowerLeader PR2012NS存儲服務器,可以提供很大的存儲容量;測試樣機配置了8個SATA硬盤和一個陣列卡。#p#
我們在被測服務器上安裝了Microsoft SQL 2005,按照測試要求建立了數據庫。BF在測試之前會在數據庫中生成9個表,其中包括4個500萬行的表格,每行包括100字節的數據,因此每個表格容量大約是476MB,整個數據庫容量為1.86GB。我們用60個客戶端模擬了最多1000個用戶,在這個數據庫中進行查詢、添加、刪除、修改等操作。
數據庫測試同時考驗了處理器、緩存-內存、磁盤以及網絡。大致上,所有的機器被分為兩個陣營:帶超線程的55x0系列與不帶超線程的550x系列,采用單路5504的幸好更是排于最末。最強的是Intel樣機,用處理器但是內存性能低點的NF5280相對性能也低一些。基于上一代至強的基準平臺性能混在550x系列當中。#p#
我們綜合了SPEC CPU2006、文件服務器性能測試和微軟SQL2005性能測試得到了服務器的綜合性能表現。
綜合性能得分以SPEC CPU 2006性能測試、文件服務器性能測試和微軟SQL2005性能測試的得分為基礎,分別占據40%、20%、40%的分值,并以我們配置了Xeon E5430處理器的平臺:DELL PowerEdge 2900 III為基準,基準得分定為100。PowerLeader PR2012NS因為沒有進行SPEC CPU 2006測試而分數顯得有些低。按照估計,其總分應該略高于100分。

浪潮NF5280采用的是Xeon X5570處理器(Nehalem-EP Gainestown中的最高型號,主頻2.93GHz;比其頻率更高的W5580/W5590屬于Nehalem-WS 2S系列),并配置了18個DIMM、36GB的內存,高內存配置讓其SPEC CPU得分比同處理器型號的Nehalem-EP樣機高出了6%。NF5280磁盤、網絡方配置方面也要更強,它的Intel 82576EB雙口千兆網卡的功能和性能都很強。
DELL PowerEdge R610服務器
DELL PowerEdge R710服務器
除了一個是1U,一個是2U之外,這兩臺服務器的性能表現都很相似,R710的3.5"硬盤的傳輸速率讓其文件服務器性能略強,但是R710的2.5"硬盤的IO能力讓其在數據庫服務器表現略高,總體來說不分上下。這兩臺服務器的雙BCM5709C雙口千兆網卡功不可沒。值得一提的一點是,DELL PE R710也是一臺可以提供18個DIMM的服務器,在內存支持上具有明顯的優勢,這一點和浪潮NF5280一樣。
HP DL380 G6服務器
HP DL380 G6和DELL的R610/R710難分上下,它的處理器配置略高,而SAS 6Gb/s陣列卡讓其磁盤性能表現非常好。DL380 G6也采用了雙BCM5709C雙口千兆網卡。
曙光I620r-G服務器
曙光I620r-G的性能和HP、DELL在同一個水平線上,可以得到一個規律,性能排在前方的服務器都采用了雙路帶超線程的55x0系列處理器、SAS陣列卡/控制卡+SAS硬盤、Broadcom BCM5709C/Intel 82576EB雙口千兆網卡,而其他采用不帶超線程的550x處理器、SATA硬盤、Intel 82574L網卡的型號得分都在100左右。#p#
我們通過測試得到了服務器的功耗數據:
綜合性能最高的浪潮NF5280的功耗也是最高,峰值達到了444.6W,這是因為它插滿了共18條2GB的內存,并且配置了兩個冗余電源。橫評中不少服務器都支持冗余電源配置以提升系統的可用性,然而只有NF5280送測樣機配置了兩個單元,這會略微增加其耗電。再往下是Dawning I620r-G,它插滿了12條2GB的內存,并且采用了比較一般的電源。余下的其他服務器配置較為接近,功耗水平也比較接近,當然,聯想T260 G2耗電是最低的。我們的老基準服務器(Xeon E5430)功耗也比較高。
【編輯推薦】