RISC挑戰者 至強7500服務器評測(多圖)
現在市場上主流的基于英特爾 Nehalem 和 Westmere架構的Xeon處理器還存在著一些沒有被公開的秘密,其中就包括英特爾至強Xeon 7400 系列。當我們對比配備了雙核和四核頂級處理器的平臺時,我們經常在熱情的討論其中的RAS特性,實際上,這已經是進入了一種誤區。SAP, OLTP以及其它高端服務器所配備的功能跟其配備的高端高價至強處理器是成正比的,而普通主流的Xeon處理器在這方面實際上是沒有什么建樹的。
近期,AMD六核8000系列平臺已經開始搶占了不少英特爾至強Xeon X7460的市場,配備AMD四核 dodeca處理器的服務器現在已經成為一線OEM服務器廠商最暢銷的產品之一,英特爾最新的至強 Xeon EX系列將要直接面對AMD產品的挑戰。
不過,根據Austin的調查顯示,英特爾正在將重心放在了其至強X7500系列了, X7560的首要重任就是要擊敗RISC處理器。對于英特爾來說,這是一個相當有效的布局,RISC市場屬于高端市場,比如,其于 RISC處理器的入門級IBM Power 7的起始售價就高達34000美元,為了爭奪高端市場,英特爾采用了基于Nehalem 架構的八核心16線程的至強處理器來打頭陣,并且處理器都配備了容量高達24MB的 L3緩存,并且擁有了更多的 RAS特性。
英特爾Nehalem-EX至強7500系列
當然,英特爾也沒有忘記低端市場,為了延續其在傳統的 x86服務器領域的優勢地位,英特爾也做好了相應的布局。在AMD推出售價為1165美元的主頻為2.2GHz的12核心 6174處理器時,英特爾則在全力推薦其售價高達3692美元 的主頻為 2.26GHz X7460,對于英特爾來說,這兩個領域的競爭都不是特別的樂觀。
面對HPC及虛擬應用領域,AMD提供了眾多高性價比、高性能功耗比的產品,這是英特爾至今沒有重視的領域,以服務器為例,英特爾重點還是放在高端用戶,這些高端用戶不惜投入巨額資金來確保其服務器系統的穩定,其在軟件方面的花費更是遠遠超過硬件,這些高端用戶對于RSA特價要求相當高,而英特爾現在的定位就是為這些用戶提供RAS特性超過 RISC平臺,并且其花費低于RISC平臺的解決方案,我們也可以將其這種策略稱為提供高端領域的“性價比”策略。英特爾據此而推出的配備至強 Xeon 7500的服務就可以擁有 64 核心 (8x8)、128線程及512GB 內存。此外,對于注重RAS特性,但不需要如果高性能的用戶,英特爾則提供了 Xeon 6000系列產品供選擇。本文我們就來具體了解下配備了 Xeon 7500/6500的 Dell R810。
#p#
二、新RAS特性在新至強處理器上得到充分應用
英特爾宣稱,新的Xeon提供了不少于 20項新的 RAS特性,這些特性大多來源于 Itanium,其中一些特性是專門應資深專業IT人士的需求而特別提供的。現在我們就來具體了解一下,有誰見過服務器崩潰是因為CPU損壞而產生的? 每個CPU運行故障的產生大都是因為相關軟件的的錯誤而引起的,在這里,我們并不特別關注極少用到的物理CPU添加和移除功能,相信對于大多數IT業內人士及尖端專業用戶都會同意這個觀點。絕大多數專業用戶都會用巨額預算來保證服務器系統的正常運行,因為一擔出錯,他們的位置肯定就會不穩,他們將會失去高額的薪水,同時他們所處的公司也將會因出錯而造成天文數字的損失。因此這些用戶對于系統的穩定性擁有一長串的強烈要求。
Nehalem-EX可靠性
具有諷刺意味的事,出于對于穩定性的要求,人們相當強調對于RAS特性的看中,實際上,對于穩定性危害最大的并不是CPU方面,而是在于內存及軟件方面,根據地根據谷歌搜索引擎的統計資料,每年有 8% DIMM會發布可修復錯誤,有0.22%會發布不可修復錯誤,現在的服務器內存容量動不動就達到TB級,新的服務器都開始將32、64條內存插槽作為標配,統計顯示,內存方面的出現的問題反而比CPU更大。
MCA技術
解決這個問題的辦法之一就是MCA(Machine Check Architecture)技術,通過這個技術,系統就會利用 L3緩存來檢測并排除“壞”的內存區域而使用“好”的區域來運行相應的軟件程序,以確保整個系統的穩定性。擁有更多容量的內存是最有效的解決這方面問題的辦法。而 Nehalem EX CPU通過對于 QPI links 應用的提升和改進強化了這方面的性能。
#p#
三、Uncore在Nehalem-EX中的重要作用
讓八核心處理器能吃飽實際上也是一樣很困難的事情,我們不能簡單的把需要處理的數據隨便累積在一起讓緩存進行處理,我們需要考慮到 uncore 部分。當我們需要八核心全部在滿負荷狀態下工作時,對于處理器L3緩存的要求就很高了, 英特爾用32位的雙循環計數環和八塊獨立的 3MB 緩存設計來確保 L3緩存可以提供最高 200GB/s數據交換以及低至 21ns的數據延遲,滿足最低限度要求的緩存可以過濾延遲帶來的性能損失,使其不致于影響整個系統的性能表現
QPI總線
在內存控制器、緩存、 QPI鏈中間有一個八口路進行著綜合管理工作,這同時也增加了 18ns的延遲,其理論數據運行帶寬為 120GB/s,每個內存控制器提供了兩個SMI通道以滿足內存緩沖的需求。這種設計可以起到 AMBs 在 FB-DIMMs 中的作用,DIMM并行的提供位寬通道 (64位/DIMM),緩存在將數據傳輸到內存控制器之前就預先讀滿相關數據。這就使得英特爾可以為每塊CPU提供四條內存通道,如果沒有上述良好的內存傳輸介面設計,主板上將會布滿數以百計的復雜的并行線路。
集成內存控制器
每個SMI單元可以提供 6.4GB/s數據帶寬,整個系統就可以提供其兩倍即12.8GB/s的總帶寬,而每個SMB單元又是由兩個DDR3-1066內存組成,每個SMB最大功耗為10W,這也就意味著在工作中,SMB至少要消耗掉7W的功率,在我們提供的DELL的主板圖片當中,我們可以看到專門為其設計的小風扇。
每塊 CPU都有兩個內存接口來與兩個 SMB進行通訊,每個SMB又驅動著兩個雙通道內存插槽,這樣算來,每塊 CPU就可以支持八條頻率為1066MHz的DDR3內存.以最小的每個DDR通道提供兩個DIMM插槽來計算,每個CPU可以提供對四個DIMM的支持,因此我們就可以看到四路至強Xeon 7500服務器可以提供超過64個內存插槽的設計,而每個DIMM最高可以支持四倍于16GB容量,因此四路至強Xeon 7500服務器最高可以支持到高達1TB的內存,這也是為什么英特爾Nehalem EX平臺才能夠提供高帶寬以及巨大的內存容量。從另一面來看,這也導致了數據延遲的增加以及因SMB的應用還產生的功耗的增加。
#p#
四、AMD Opteron和Intel Xeon新品簡介
現在,只有兩款頂級的至強 Xeon X7560處理器才配備了24MB L3緩存,分別是 X7560和 X7550,它們都擁有八核心,其核心頻率可以達到 400MHz ( Turbo Boost模式) 如果沒有虛擬層,一個單線程的任務甚至會引發八顆處理64個核心來進行操作,而這樣也只不過會省下20%的單核心處理些任務的工作時間,當所有的核心都沒有滿載運行時, CPU 則可能自動將運行頻率進行提升,英特爾相關報告也指出,在SAP測試中就出現過低負荷狀態下的CPU測試性能比Turbo Boost模式高出3%。
至強7500和6500系列CPU規格
所以采用 Windows 2008 系統的用戶來說,增強模式(Turbo Boost)很難應用得上。我們都有這樣的經驗,在大多數電源管理應用當中,其中的平衡(balanced)功能都不會采用增強模式,增強模式只會在用戶選擇高性能(high performance)情況下才能得到應用。
Xeon X7560檢測信息
而Linux的SUSE SLES 11版本操作系統 (2.6.27 SMP x86-64核心)就不會出現這種問題,現在讓我們來看看相關處理器的現在市場價格情況。
至強7500系列規格
#p#
五、Dell R810牽手英特爾Nehalem-EX平臺
Dell也開始提供新的性價比較高的產品了,在最新的 Dell服務器產品當中,我們看到了兩個很有意思的特別之處,其中之一就是采用了雙SD卡冗余配置,與原來提供嵌入式管理程序SD卡系統相比,多了起鏡像備份功能的 SD卡。另一個就是新的服務器采用了不超過32條內存插槽設計,適用于只打算配置雙路服務器的用戶。Dell將其稱為“FlexMem Bridge”技術在配置兩顆CPU的時候可以使用四路服務器的全部內存插槽,極大的提升了內存擴展性,適應虛擬化等應用對內存容量的需求。在下圖中我們可以清晰的看到,主板上只有兩個配備銅熱管散熱技術的CPU散熱器。
強大的內存擴展性
散熱器下面的CPU
當我們移開散熱器,就可以看到相關的芯片了:
芯片(國內生產哦)
擁有大量的DIMM內存插槽在四路和雙路服務器系統主板,一眼看上去是相當帥氣的,盡管在使用當中會有很多限制,在下圖當中,你就可以看到用來為作第二個內存控制器作用的 FlexMem 芯片。
FlexMem內存橋接技術
“FlexMem Bridge”技術的不足就是帶來了一些數據處理延遲,但其優點卻是更加明顯的,它可以為兩路服務器提供四路服務器級別的內存設置。Dell的R810 服務器為每塊CPU設計了一個內存控制器,在其刀片服務器 M910也采用了同樣的設計,而Dell R910 的每塊 CPU則配備了兩個內存控制器。
Dell R810的定位很清楚的表現它不是追求最高性能的,對于那些不需要超高性能處理器的用戶來說,32核心的 Nehalem 架構再配合大容量內存已經足夠使用了,實際上在有些領域,擁有16核心的服務器已經完全能夠滿足這些用戶的需求。
Dell R810成功的將 Xeon 7500打入入門級市場,而那些于RAS特性有更高要求的用戶則可以選擇英特爾的其它高階產品。
R810的Riser卡
Dell R810配備的是雙路Xeon 6500系列處理,因此,配備了兩顆 E6540 2GHz, 128GB (32x4GB)內存的售價在14400美元 ,作為參考,配置相近的 R710擁有兩顆Xeon E5540 處理器和128G內存,其售價為11400美元 ,四路 Opteron 6100系統最高可以提供48個DIMM內存插槽,并且其售價更加便宜,不過對于需要大容量內存來確保穩定性的用戶來說,采用Xeon 7500的 Dell R810 是更有吸引力的選擇。
#p#
六、測試平臺介紹:
Dell R810配置:
雙路 Xeon X7560 2.26GHz處理器
Dell 05W7DG主板,采用英特爾 ICH10R南橋芯片 (BIOS版本為: 0.3.2)
128GB (32 x 4GB) DDR3-1066內存 (海力士HMT151R7BFR8C)
網卡:四Broadcom BCM5709C NetXtreme II千兆以太網卡 (1GB)
Xeon 服務器 1: ASUS RS700-E6/RS4 barebone
雙路 Intel Xeon "Gainestown" X5570 2.93GHz, 雙路Xeon “Westmere” X5670 2.93 GHz
ASUS Z8PS-D12-1U主板
6x4GB (24GB) ECC Registered DDR3-1333內存
網卡: Intel 82574L PCI-EGBit LAN
電源: Delta Electronics DPS-770 AB 770W
Opteron 服務器 1 (Dual CPU): AMD Magny-Cours Reference 系統
雙路AMD Opteron 6174 2.2 GHz處理器
AMD Dinar主板( AMD SR5690+SB750 )
內存:8x 4 GB (32 GB) ECC Registered DDR3-1333
網卡: Broadcom Corporation NetXtreme II BCM5709 Gigabit
電源: 1200W PSU
Opteron 服務器 2 (雙路 CPU): Supermicro A+ Server 1021M-UR+V
雙路Opteron 2435 "Istanbul" 2.6GHz
雙路Opteron 2389 2.9GHz
Supermicro H8DMU+主板
32GB (8x4GB) DDR2-800內存
電源: 650W Cold Watt HE Power Solutions CWA2-0650-10-SM01-1
vApus/Oracle Calling Circle Client設置
第一用戶 (Tile one)
Intel Core 2 Quad Q9550 2.83 GHz
Foxconn P35AX-S
4GB (2x2GB) Kingston DDR2-667
NIC: Intel PRO/1000
第二用戶 (Tile two)
Single Xeon X3470 2.93GHz
S3420GPLC
Intel 3420 chipset
8GB (4 x 2GB) 1066MHz DDR3
我們的測試其實是有限的,在一年內,我們的測試從典型的 12 至16線程服務器系統到擁有 48 至64線程服務器系統,這同時也反應了服務器市場上性能的增長情況。 之所以選擇 Oracle Calling Circle 和vApus Mark I 就是為了精確的測試這些多線程服務器的性能。
#p#
七、Stream TRIAD測試
通過測試的內容我們可以了解服務器的具體性能及其優缺點,首先我們在SUSE SLES 11到平臺下進行了Stream TRIAD測試,該測試分為四組數據,分別是復制、scale、添加以及triad(以上三項的綜合)。
運行在64位Linux系統上的Stream TRIAD基準測試(最大線程數),數值越大,性能越高
在這項測試中, Xeon X7560表現較弱,英特爾工程師對其理論上高達36GB/s 的帶寬報以很大的信心,不過在實際測試中,這個只能達到25至29GB/s。
我們注意到英特爾Xeon X7560的single threaded 帶寬最高只能達到 5GB/s( DDR3-1066),而六核 Opteron(DDR2-800)可以達到 8GB/s, 最新的Opteron DDR3-1333內存控制器可以達到9.5GB/s ,幾乎兩倍于Xeon 7500系列, 不過表現最好的當屬 Xeon 5600的內存控制器,達到了12GB/s ( DDR3-1333),由此我們可以看出,為了提升內存的容量,英特爾犧牲了不少帶寬來實現。下面我們來看看延遲方面的數據。
CPU |
Speed (GHz) |
L1 (clocks) |
L2 (clocks) |
L3 (clocks) |
Memory (ns) |
Xeon X5670 |
2.93 |
4 |
10 |
56 |
87 |
Xeon X5570 |
2.80 |
4 |
9 |
47 |
81 |
Opteron 6174 |
2.2 |
3 |
16 |
57 |
98 |
Opteron 2435 |
2.6 |
3 |
16 |
56 |
113 |
Xeon X7560 |
2.26 |
4 |
9 |
63 |
160 |
配備24MB L3緩存的Xeon X7560延遲數據相當顯眼
CPU |
Speed (GHz) |
L1 CPU (GB/s) |
L2 CPU (GB/s) |
L3 (GB/s) |
Xeon X5670 |
2.93 |
717 |
539 |
150 |
Xeon X5570 |
2.80 |
437 |
312 |
114 |
Opteron 6174 |
2.2 |
768 |
378 |
194 |
Opteron 2435 |
2.6 |
472 |
281 |
228 |
Xeon X7560 |
2.26 |
667 |
502 |
275 |
在許多測試中, L1 和 L2緩存對于測試結果起著非常重要的作用,不過在這里我們重點來看看L3緩存的表現,從上表的數據中我們可以看出, Nehalem EX處理器 L3 緩存表現最出色, Opteron其次,不過由于L3緩存對于帶寬要求更高,所以Xeon 7500雖然是現在市場上 L3緩存最強的產品,但其在內存帶寬方面的性能要弱于其它服務器CPU 。
#p#
八、Nieuws.be基準測試
Nieuws.be基準測試 |
|
操作系統 |
Windows 2008企業版RTM (64位)
|
軟件 |
SQL Server 2008企業版x64 (64位)
|
測試軟件 |
vApus + real-world "Nieuws.be"數據庫
|
數據庫大小 |
> 100GB |
Nieuws.be 是一個創立于 2008年的最新 web 2.0 網站。它利用不同的來源收集新聞,讀者可以自主定制自己想看的新聞。Nieuws.be網站有著 100GB 龐大的數據庫,并且其容量還在不斷增長。測試時幾乎所有的數據庫負載都是 select(99%),這其中大約有 5% 保存在存儲過程(stored procedure)中。網絡流量均值為 6.5MB/s,峰值為 14MB/s。而我們測試時使用的千光以太網卡足以應付。
Nieuws.be基準測試結果
通過對比測試結果,雙路 Xeon X5670 的成績比雙路十二核心的Opteron 2435領先 6%,不過在高端方面 X7560的表現遜色于Opteron 6174, 這種情況還是因為高內存延遲及低帶寬導致的。
#p#
九、SAP S&D 2-Tier基準測試
SAP S&D 2-Tier基準測試 |
|
操作系統 |
Windows 2008 Enterprise Edition |
軟件 |
SAP ERP 6.0 Enhancement package 4 |
基準軟件軟件 |
Industry Standard benchmark version 2009 |
Typical error margin |
Very low |
|
|
|
|
我們進行了SAP SD。測試運行在Windows 2008 Enterpris版本和 MS SQL Server 2005 數據庫 (都為64 位軟件)環境下。每個 2-tier SD 基準都是在 SAP 最新的第四版 ERP 6 增強包下進行的。測試時的基準文件設置為:并行帶來不錯的拓展性;低到中的進程間通信(IPC);稍微被內存帶寬限制;傾向大容量緩存(內存延遲!);對同步延遲(緩存一致性)敏感。
SAP S&D 2-Tier基準測試
從測試結果我們可以看到,四路 Xeon X7560平臺比八核 Opteron 8435(2.6GHz)領先了3%,八路Xeon 7560的表現更是搶眼,已經超過了四路 Power 7服務器。
#p#
十、Vmmark基準測試
VMmark就是一個不錯的基準測試方法,該測試將幾個普通的工作量同時運行在單獨的虛擬機上,每個工作量是一個單一的系統運行基準,運行時產生的多種基準得分的綜合就可以得到整個系統的基準評分。從而可以讓我們有效評估系統對于虛擬化的支持能力。測試結果可以體現其用于郵件服務器,數據庫,文件服務器及網絡Java運行的能力。
Vmmark基準測試結果
對比Vmmark的測試成線,我們發現各個平臺之間的差距實際上并不是很明顯,當然,表現最為出色的當屬 Xeon 7500,與主頻為 2.8GHz的八路 Opteron 8439相比,四路Xeon 7500領先幅度還是比較大的。
十一、關于功耗
實際上,在這次測試中,性能/功耗比已經成為不可能的任務了,因為在測試中不同服務器的配置,使用的主板,CPUs,內存,風扇對功耗都起著一定的影響,測試中的各個平臺硬件組成差異較大,因此進行相關測試說明不了什么問題。比如 Xeon X7560服務器系統擁有四路處理器,配備遠程管理卡、SAS/SATA模塊并提供了豐富的PCIe 擴展插槽,不過從總體上來看,Xeon X7560系統對電力的需求更高一些,中端,Xeon X7560將提供8個 SMB,需要至少 60W的額外功率,而高端的,Xeon X7560系統則提供了16個SMB,再加上處理器本身的功耗,我們有理由相信英特爾至強 Xeon X7560服務器系列會消耗更多一些的功率。
#p#
總結
我們先對英特爾四核 Xeon X7560處理器進行了測試,雙路Xeon Nehalem EX服務器并不意味著會帶來頂級的性能,但是它提供了大容量內存解決方案對于提供服務器系統的穩定性能的確擁有相當的優勢,出于軟件支持方面的原因,我們此次測試并沒有對英特爾的RAS特性進行相關檢測, 微軟保證將會在 Windows 2008 R2版開始支持MCA,而 Red Hat 和 Novell 則將會在它們的下一個版本中實現對MCA的支持。這也就意味著未來的軟件支持將會更加完善。
RISC挑戰者至強7500
總體上來看, 一個擁有支持ECC 256GB內存的服務器運行VM 時,其中一個VM出錯,就可能會導致整個系統的崩潰,在這方面,英特爾最新的至強 Xeon處理器由于增強了RAS特性,可以有效的回避這些問題。采用英特爾新至強平臺的Dell R810在運行 ERP, OLTP 及虛擬應用環境下,可以提供更好的穩定性支持。
此外,在關于Xeon 6500 系列處理器的定位上,英特爾將它定位在兼顧價格水平的情況下,提供主流RAS性能,這樣對于預算較少又注重RAS穩定性能的用戶來說,就可以有了新選擇。中端的Dell R910以及高端的IBM X3950 將 x86服務器帶到了一個新的水平,價值50,000美元的配備四塊共32核心的至強Xeon X7560系統,同時還擁有 512GB內存,同樣的價格,你只能購買主頻為3GHz,配備64GB內存,擁有16核心 Power 7平臺的IBM Power 750系統,雖然 The Power 7或許仍然是現在最快的服務器,但Xeon 7500 服務器可以提供更加強大的性價比。
Xeon 7500處理器并不是為HPC這種家庭多媒體中心電腦而設計,如果你有這方面的需要,AMD可以提供更多物美價廉的選擇,此外,7500對于喜歡主流的雙核心服務器,注重性能價格比,或者性能功耗比的用戶來說也不合適,對于這些用戶,現在市場上AMD Opteron 6100是最好的選擇,
綜合來看,Xeon 7500是目前市場上首款能夠真正擊敗RISC 處理器的產品,相信英特爾公司會借此大力發展,在RAS領域有發揮更大的作用。
【編輯推薦】