英特爾至強Sandy Bridge首測(圖)
前不久,英特爾對外發布了最新的基于Sandy Bridge微架構的32nm至強處理器——E3系列。雖然這并非是英特爾第一次發布基于Sandy Bridge微架構的產品,雖然E3僅僅面向單路應用而生,但不管怎么說,E3的出現的確標志著英特爾在至強處理器發展中邁出了重要的一步,也是Tick-Tock戰略中重要的內容(Tock)。
英特爾發布Sandy Bridge微架構32nm至強處理器
得益于桌面級Sandy Bridge處理器的成功,許多人對于至強Sandy Brideg處理器也充滿了期待。雖然對于至強處理器應用的服務器環境來說,多媒體性能并非是人們應該關注的內容。而每當提到Sandy Bridge的技術特點——環形總線、AVX指令集、Turbo Boost2等內容都是眾多報道中頻繁出現的內容。究竟這些技術為我們帶來了什么?它們的存在會有哪些的好處。這些還要從Sandy Brideg之前的Nehalem開始說起。
#p#
按照英特爾著名的時鐘規律——Tick-Tock來看,Sandy Bridge明顯屬于后者,也就是Tock范疇。Tock主要是指處理器微架構方面的改變,而核心工藝的上一次升級已經由我們熟悉的Westmere完成了,下一次22nm的升級還要再等等才行。
在進行系統的分析之前,我們先來看看最新的至強Sandy Bridge處理器路線圖。相比以往的產品來說,Sandy Bridge至強處理器采用了與桌面級酷睿處理器類似的命名規范,分為E3、E5和E7三個系列。其中,E3系列是面向入門級單路服務器的產品,E5系列則面對了主流的雙路服務器平臺。唯一有特點的是E7,這款產品雖然在型號上采用了新的命名規則,但是在本質上E7還是上一代架構的產品,它還有一個大家非常熟悉的名字——Westmere-EX 。
至強處理器路線圖
本次我們要介紹的至強E3系列屬于面向單路服務器應用的產品,使用的是LGA115接口,也就是圖中的Sandy Bridge-DT。按照產品布局分析,Sandy Bridge-DT主要定位在入門級的單路服務器,雖然同樣是單路,但是高端應用的任務則是由Sandy Bridge-EN來承擔。
#p#
正如我們剛才提到的,新一代的至強Sandy Bridge處理器給我們帶來的一個印象就是采用了環形總線架構,這也是英特爾在繼Nehalem和Westmere之后繼續使用環形總線的架構。
Sandy Bridge核外架構圖
Sandy Bridge處理器使用了新的環形總線設計。事實上從之前的Nehalem開始,英特爾就轉向了融合核心的理念。在Nehalem當中,英特爾將內存控制器融入其中,而在接下來的Westmere當中,GPU也作為融入的對象而出現(只是那時候的GPU還僅僅使用的是45nm工藝)。在之前的8核心Nehalem-EX上,我們就看到了環形總線的身影,不過當時的產品在性能和功耗上并沒有表現出明顯的優勢。
本次Sandy Bridge使用的是重新設計的核外結構,全新的Ring Bus環形總線更能夠較好的展示出Sandy Bridge的真實性能。通過上圖大家可以看到,Ring Bus環形總線連接各個CPU核心、LLC緩存(L3緩存)、融合進去的GPU以及System Agent(系統北橋)等部分。
這個圖片或許可以更好的說明問題。新的Ring Bus環形總線由四條獨立的環組成,分別是數據環Data Ring、請求環Request Ring、響應環Acknowledge Ring和偵聽環Snoop Ring。借助于環形總線,CPU與GPU可以共享LLC緩存,將大幅度提升GPU性能。
在這個環形總線上,分布著多個Ring Stop,也就是俗稱的“站臺”。這個“站臺”在每個CPU/LLC塊上具有兩個連接點,而之前使用環形總線的產品,也就是Nehalem-EX環在每個CPU/LLC塊上只有一個連接點。
環形總線的存在,可以大大減少核心訪問三級緩存的周期。在以往的產品中,多個核心共享一個三級緩存,需要訪問的話必須先經過流水線發送請求,在進行優先級排序之后才能進行。新的環形總線將三級緩存分割成了若干部分,借助于每個站臺,核心可以快速的訪問LLC。LLC小容量緩存的延遲優勢與核心頻率一致性在這里也就體現了出來,這就使得Sandy Bridge的周期相比以往產品有所縮減,從原來的35-40個縮減到了26-31個。同時,由于每個核心與LLC之間可以提供若干帶寬,使得Sandy Bridge的整體帶寬也提升了4倍。
#p#
在Sandy Bridge處理器中,英特爾使用了一個全新的概念——System Agent(系統助手)。事實上,System Agent也就是我們之前所說的核外架構,只是英特爾本次給予了其全新的命名,而在以往的名稱中,我們親切的稱之為系統北橋。
系統助手
System Agent包含了比以往產品更為豐富的功能,包括整合內存控制器、支持16條PCIE2.0通道的PCIE控制器、圖形處理器(GPU)、電源控制單元(PCU)以及DMI總線的IO接口。
PCI-E控制器,可提供16條PCI-E 2.0信道,支持單條PCI-E x16或者兩條PCI-E x8插槽;
重新設計的雙通道DDR3內存控制器,內存延遲也恢復了正常水平(Westmere將內存控制器移出CPU、放到了GPU上);
此外還有DMI總線接口、顯示引擎、電源控制單元(PCU)。
系統助手的頻率要低于其他部分,有自己獨立的電源層。
#p#
在Sandy Bridge處理器中,最大的改進要算是增加了全新的AVX指令集——Advanced Vector Extensions,高級矢量擴展。這個指令集的增加是X86處理器中的重要內容,不僅僅是提供了更為良好的性能,同時也是對現有指令集的整合與優化。
介紹AVX指令集之前,先要引入一個向量的概念。所謂向量,就是多個標量的組合,通常意味著SIMD(單指令多數據),就是一個指令同時對多個數據進行處理,達到很大的吞吐量。早在1996年,英特爾就在X86架構上應用了MMX(多媒體擴展)指令集,那時候還僅僅是64位向量。到了1999年,SSE(流式SIMD擴展)指令集出現了,這時候的向量提升到了128位。
如今,Sandy Bridge的AVX將向量化寬度擴展到了256位,原有的16個128位XMM寄存器擴充為256位的YMM寄存器,可以同時處理8個單精度浮點數和4個雙精度浮點數。換句話說,Sandy Bridge的浮點吞吐能力可以達到前代的兩倍。不過現在,AVX的256位向量還僅僅能夠支持浮點運算。不過AVX的特別之處在于,它可以應用128位的SIMD整數和SIMD浮點路徑。



#p#
既然我們一直在討論Sandy Bridge核心,那么不談到其特色的整合GPU顯然是不合適的,雖然對于服務器的應用來說多媒體性能的確是無足輕重。其實我們在文章最初就提到過,作為Tioc-Tock時鐘式的重要內容,其實從Wesrtmere 32nm處理器開始,英特爾就在處理器中整合了GPU,不過僅僅是將二者封裝在一個Die上。因為45nm的GPU與32nm的CPU在制程上不一致,最重要的是關鍵的內存控制器被放在了45nm的GPU當中,造成了32nm Westmere性能并沒有想象的那么出色。而在Tock中,Sandy Bridge的出現解決了這一問題,特別是將GPU整合在了環形總線之內,實現了二者真正的融合。
SandyBridge GPU有自己的電源島和時鐘域,也支持Turbo Boost技術,可以獨立加速或降頻,并共享三級緩存。顯卡驅動會控制訪問三級緩存的權限,甚至可以限制GPU使用多少緩存。將圖形數據放在緩存里就不用繞道去遙遠而“緩慢”的內存了,這對提升性能、降低功耗都大有裨益。
可編程著色硬件被稱為EU,包含著色器、核心、執行單元等,可以從多個線程雙發射時取指令。內部ISA映射和絕大多數DX10.1 API指令一一對應,架構很像CISC,結果就是有效擴大了EU的寬度,IPC也顯著提升。抽象數學運算由EU內的硬件負責,性能得以同步提高。
英特爾此前的圖形架構中,寄存器文件都是即時重新分配的。如果一個線程需要的寄存器較少,剩余寄存器就會分配給其他線程。這樣雖能節省核心面積,但也會限制性能,很多時候線程可能會面臨沒有寄存器可用的尷尬。在芯片組集成時代,每個線程平均64個寄存器,Westmere HD Graphics提高到平均80個,Sandybridge則每個線程固定為120個。
#p#
好了,介紹了這么多,終于輪到我們本次評測的主角——至強E3系列登場了。關于至強E3系列,一共有7款產品,其中兩款為超低功耗版的產品。它們的主頻最低為2.2GHz,最高為2.5GHz。
本次我們拿到的測試產品是E3系列中的E3-1275和E3-1220。前者是E3系列中的高端產品,主頻為3.4GHz,支持超線程技術,TDP為80W;后者是E3系列標準版中的最低規格,主頻僅為3.1GHz,不支持超線程技術。其中,整合GPU的處理器命名統一以5結尾。
至強E3-1220處理器
至強E3-1275處理器
LGA1155接口處理器
至強E3系列處理器采用的是LGA1155接口,從處理器的背面來看其布局與LGA1156有非常大的區別,也就是說用戶不可能直接從LGA1156平滑升級到LGA1155處理器,必須要更換平臺。
對于桌面級的Sandy Bridge處理器來說,6系列芯片組,包括P67和H67都是比較好的選擇。而在本次測試中,由于我們暫未難道應用于E3系列處理器的主板,因此在測試中我們只能選擇P67芯片組進行。這次,我們將針對高端的E3-1270處理器進行測試。
#p#
對于至強E3-1270處理器的測試,我們搭建了一套專門的平臺,具體配置如下:
平臺信息服務器
|
|
產品名稱 | 至強E3-1275處理器 |
平臺類型 | 英特爾 P67芯片組 |
處理器子系統 | |
---|---|
處理器型號 | 英特爾 Xeon E3-1275 |
處理器架構 | 英特爾 32nm Sandy Bridge |
代號 | Sandy Bridge |
處理器封裝 | Socket 1155 LGA |
核心/線程數量 | 4/8 |
主頻 | 3.4GHz |
處理器指令集 |
MMX,SSE,SSE2,SSE3, |
外部總線 | 2×QPI 2933MHz 6.40GT/s 單向12.8GB/s(QPI) 雙向25.6GB/s(QPI) |
L1 Code Cache | 4× 32KB 8路集合關聯 |
L1 Data Cache | 4× 32KB 4路集合關聯 |
L2 Cache | 4× 256KB 8路集合關聯 |
L3 Cache | 8MB 16路集合關聯 |
服務器主板 | |
主板型號 | 英特爾 DP67BG |
主板芯片組 | 英特爾 P67 |
北橋芯片特性 | 2×QPI VT-d Gen 2 |
內存子系統 | |
內存控制器 | 每CPU集成雙通道R-ECC DDR3 1333 |
內存類型 | 2GB R-ECC DDR3 1333 SDRAM ×4條 |
存儲子系統 | |
磁盤控制器 | 英特爾 ICH10R SATA AHCI Controller |
磁盤控制器規格 | 4x SATA 3Gb/s+2x SATA 6Gb/s AHCI w/ NCQ RAID 0/1/10 |
控制器驅動 | 英特爾 Matrix Storage Manager 8.8.0.1009 |
硬盤型號數量 | Seagate Barracuda 7200.12 ST3250318AS |
硬盤規格 | 7200RPM 500GB SATA 3Gb/s NCQ 16MB Cache |
網絡連通性 | |
網卡控制器 | 英特爾 82576EB Port Gigabit Network Controller |
網卡驅動 | 英特爾 PRO Set 15.8.76.0 |
軟件環境 | |
操作系統 | Windows Server 2008 R2 Enterprise Edition SP1 x64 |
本次我們為這款平臺搭配的是Windows Server 2008 R2操作系統,而且還增加了SP1補丁。剛剛我們在介紹AVX指令集的時候提到,這個指令集在SP1版本下有比較好的表現,因此我們特別安裝了SP1補丁。平臺方面,P67平臺是當下我們的無奈選擇,好在這個是英特爾原廠的主板,還算是比較搭配。出于測試SPEC CPU 2006的考慮,我們為平臺搭配了4條宇瞻 DDR3 1333內存,這樣系統的內存容量達到了16GB。
#p#
對于服務器性能方面的考察,我們主要分為子系統測試和應用性能測試。在子系統測試中我們按處理器、內存以及磁盤等各個子系統進行了分項測試,當然各子系統的測試成績也是相輔相成,也需要其它子系統的支持,并非是完全獨立的,只是對考察的子系統有所偏重而已。
處理器子系統測試
對服務器處理器子系統的考察,我們主要采用的是業界公認的SPEC CPU 2006測試,該項測試通過對數十個典型應用程序的運行,來測試系統處理器子系統在應用中的整、浮點運算效率。SPEC CPU 2006測試具有很好的開放性,因此在業界為廣大用戶所接受,可以利用這一公開的測試結果進行系統間運算性能的比較。
此外SiSoftware Sandra也有測試子項可用于處理器運算性能測試,其結果通常以每秒完成的指令數來表現。也可以用作不同處理器間運算效率的比較。
SPEC CPU 2006 v1.1
SPEC是標準性能評估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計算機廠商、系統集成商、大學、研究機構、咨詢等多家公司組成的非營利性組織,這個組織的目標是建立、維護一套用于評估計算機系統的標準。
SPEC CPU 2006是SPEC組織推出的CPU子系統評估軟件最新版,我們之前使用的是SPEC CPU 2000。和上一個版本一樣,SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,前者用于測量和對比整數性能,后者則用于測量和對比浮點性能,SPEC CPU 2006中對SPEC CPU 2000中的一些測試進行了升級,并拋棄/加入了一些測試,因此兩個版本測試得分并沒有可比較性。
SPEC CPU測試中,測試系統的處理器、內存子系統和使用到的編譯器(SPEC CPU提供的是源代碼,并且允許測試用戶進行一定的編譯優化)都會影響最終的測試性能,而I/O(磁盤)、網絡、操作系統和圖形子系統對于SPEC CPU2006的影響非常的小。
SPECfp測試過程中同時執行多個實例(instance),測量系統執行計算密集型浮點操作的能力,比如CAD/CAM、科學計算等方面應用可以參考這個結果。SPECint測試過程中同時執行多個實例(instances),然后測試系統同時執行多個計算密集型整數操作的能力,可以很好的反映諸如數據庫服務器、電子郵件服務器和Web服務器等基于整數應用的多處理器系統的性能。
我們在被測服務器中安裝了英特爾 C++ 11.1.034 Compiler、英特爾 Fortran 11.1.034 Compiler這兩款SPEC CPU 2006必需的編譯器,通過最新出現的QxS編譯參數,英特爾 Compiler 10版本開始支持對英特爾 SSE4指令集進行優化(假如只支持SSE3,則使用QxT編譯參數)。我們另外安裝了Microsoft Visual Studio 2003 SP1提供必要的庫文件。按照SPEC的要求我們根據自己的情況編輯了新的Config文件,使用了較多的編譯選項。我們根據被測系統選擇實際可同時處理的線程數量,最后得到SPEC rate base測試結果(基于base標準編譯,SPEC base rate測試代表系統同時處理多個任務的能力)。
和其它測試部件不同,SPEC CPU 2006需要大量的系統物理內存,我們的SPEC測試在64位的Windows Server 2008 R2 下完成,對于每個運算核心,最低配置1.5GB內存。
內存子系統測試
對于內存子系統的考察,也是利用SiSoftware Sandra來實現,在該軟件中有相應組件可進行內存帶寬、內存延遲等方面的測試。
SiSoftware Sandra v2011
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統上的分析軟件,這款軟件可以對于系統進行方便、快捷的基準測試,還可以用于查看系統的軟件、硬件等信息。從2007開始,Sandra的Arithmetic benchmarks增加了對SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了對于SSE4的支持,另外還升級了File System benchmark和Removable Storage benchmark兩個子項目。對于新的硬件的支持當然也是該軟件每次升級的重要內容之一,SiSoftware Sandra 2010對NUMA架構以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外測試項目和測試結果也有了略微的變化。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優化,最高可支持32/64路平臺。
#p#
激動人心的時刻終于到來了。對于一款處理器來說,許多人都喜歡使用CPU-Z來觀察它的規格。下面我們就一起來看看至強Sandy Bridge處理器給我們帶來了什么。
因為測試處理器為ES版,所以依然識別為Core i7處理器,不過下面一行倒是看得很清楚——E3 1275
8MB三級緩存,由4個核心共享,每核心分配2MB
測試主板使用的是P67芯片組
我們使用了4條宇瞻4GB DDR3 1333內存,系統總內存容量為16GB
#p#
AIDA64(原EVEREST)是一個測試軟硬件系統信息的工具,它可以詳細的顯示出PC硬件每一個方面的信息。支持上千種(3400+)主板,支持上百種(360+)顯卡,支持對并口/串口/USB這些PNP設備的檢測,支持對各式各樣的處理器的偵測。支持查看遠程系統信息和管理,結果導出為HTML、XML功能。
之前這款軟件命名為AIDA32,后改名為EVEREST,現在又改名為AIDA64,真是夠折騰的。
E3-1275支持超線程技術,我們可以看到完整的8個線程
P67主板僅能夠支持雙通道內存,不過我們剛剛在介紹System Agent的說過,這個雙通道是經過重新設計的
系統北橋實際上就是System Agent,因為我們使用的是P67而非H67,所以顯示自帶的GPU已禁用
主板南橋信息
#p#
SPEC CPU 2006的浮點運算測試包括的全部都是科學運算,科學運算需要用到大量的高精度浮點數據,如410.bwaves 流體力學、416.gamess 量子化學、433.milc 量子力學、434.zeusmp 物理:計算流體力學、435.gromacs 生物化學/分子力學、436.cactusADM 物理:廣義相對論、437.leslie3d 流體力學、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 線形編程、優化、453.povray 影像光線追蹤、454.calculix 結構力學、459.GemsFDTD 計算電磁學、465.tonto 量子化學、470.lbm 流體力學、481.wrf 天氣預報、482.sphinx3 語音識別共17項測試。
首先我們看到的是浮點預算的測試成績,我們采用的對比處理器為至強X3430。至強X3430是上一代的單路服務器產品,采用45nm工藝,其主頻為2.4GHz,4核心4線程。從這個測試結果來看,E3-1275大幅度領先于對比產品,許多項目的性能提升在一倍以上。
這個原因是多方面的。首先從主頻上來看,E3-1275相比X3430提升了1GHz的主頻,差距很明顯;其次是超線程的應用,8線程相比4線程也提升了一倍;第三是處理器微架構的差別,包括整體的設計及制造工藝。因此,至強E3-1275的明顯優勢也就沒什么好奇怪的了。
#p#
SPEC CPU 2006整數運算主要包含編譯、壓縮、人工智能、視頻壓縮轉換、XML處理等,此外,各種日常操作也主要是基于整數操作。SPEC CPU 2006的整數運算包含了400.perlbench PERL編程語言、401.bzip2 壓縮、403.gcc C編譯器、429.mcf 組合優化、445.gobmk 人工智能:圍棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:國際象棋、462.libquantum 物理:量子計算、464.h264ref 視頻壓縮、471.omnetpp 離散事件仿真、473.astar 尋路算法、483.xalancbmk XML處理共12項。
剛才我們說過了E3-1275在硬件規格及軟件設計上的三點優勢,這些優勢在整數運算中表現更為明顯,部分項目領先了X3430達5倍之多。
#p#
SiSoftware Sandra是一款很不錯的軟件,但是對于Sandy Bridge平臺來說,原來的2010版本已經不能使用,而目前提供免費下載的版本型號為2011Lite。相比我們之前使用的Business版本來說,Lite版簡化了許多的功能,還好我們常用的測試項目都還在。
在成績分析前我們必須要清楚,這兩個相對比的服務器平臺所配的處理器分屬于英特爾至強5500和5600前后兩個不同的系列,雖然二者每個處理器都是4個核心,但是二者的工作頻率卻有比較大的差距,聯想萬全R525 G3采用的至強E5620的工作主頻為2.4GHz,是至強5600系列中主頻最低的,而對比服務器平臺所選用的至強X5570卻是至強5500系列中工作主頻最高的,為2.93GHz。接下來的對比也將是兩個處理器配置懸殊的服務器平臺間的較量。
SiSoftware Sandra Lite 2011
|
||
產品名稱 | 至強E3-1275 | 至強X3430 |
平臺類型 | 單路Sandy Bridge | 單路Lynnfield |
Processor Arithmetic Benchmark 處理器算術運算測試 |
||
---|---|---|
Dhrystone ALU | 136.74GIPS |
62244MIPS
|
Dhrystone ALU vs SPEED | 35.98MIPS/MHz | 48.75MIPS/MHz |
Whetstone iSSE3 | 83.43 GFLOPS |
29187MFLOPS
|
Dhrystone iSSE3 vs SPEED | 21.96 MFLOPS/MHz |
12.16MFLOPS/MHz
|
Processor Multi-Media Benchmark 處理器多媒體測試 |
||
Multi-Media Int x16 iSSE4.1 | 201.26MPixel/s |
106.74MPixel/s
|
Multi-Media Int x16 iSSE4.1 vs SPEED | 78.26 kPixels/s/MHz |
44.48kPixels/s/MHz
|
Multi-Media Float x8 iSSE2 | 153MPixel/s |
81.28MPixel/s
|
Multi-Media Float x8 iSSE2 vs SPEED | 59.48 kPixels/s/MHz |
33.87kPixels/s/MHz
|
Multi-Media Double x4 iSSE2 | 83.54MPixel/s |
42.24MPixel/s
|
Multi-Media Double x4 iSSE2 vs SPEED | 32.49 kPixels/s/MHz |
17.60kPixels/s/MHz
|
Multi-Core Efficiency Benchmark 處理器效能測試 |
||
Inter-Core Bandwidth | 16 GB/s |
13.27GB/s
|
Inter-Core Bandwidth vs SPEED | 4.29 MB/s/MHz |
5.66MB/s/MHz
|
Inter-Core Latency(越小越好) | 42.4ns |
60ns
|
Inter-Core Latency vs SPEED(越小越好) | 0.01ns/MHz |
0.03ns/MHz
|
.NET Arithmetic Benchmark .NET算術運算測試 |
||
Dhrystone .NET | 18GIPS |
11567MIPS
|
Dhrystone .NET vs SPEED | 5MIPS/MHz |
4.82MIPS/MHz
|
Whetstone .NET | 50.1 GFLOPS |
26730MFLOPS
|
Whetstone .NET vs SPEED | 13.92MFLOPS/MHz |
11.14MFLOPS/MHz
|
.NET Multi-Media Benchmark .NET多媒體測試 |
||
Multi-Media Int x1 .NET | 37.72 MPixel/s |
21.93MPixel/s
|
Multi-Media Int x1 .NET vs SPEED | 9.93MPixel/s |
9.14kPixels/s/MHz
|
Multi-Media Float x1 .NET | 13.7MPixel/s |
7.26MPixel/s
|
Multi-Media Float x1 .NET vs SPEED | 3.61kPixels/s/MHz |
3.03kPixels/s/MHz
|
Multi-Media Double x1 .NET | 27.22 MPixel/s |
11.82MPixel/s
|
Multi-Media Double x1 .NET vs SPEED | 7.16 kPixels/s/MHz |
4.92kPixels/s/MHz
|
依然是一邊倒的成績,我們甚至覺得選擇X3430作為對比產品有點怠慢了E3-1275。不過沒辦法,單路服務器處理器數量太少,我們手中的數據有較為有限。
#p#
SiSoftware Sandra Lite 2011
|
||
產品名稱 | 至強E3-1275 | 至強X3430 |
平臺類型 | 單路Sandy Bridge | 單路Lynnfield |
Memory Bandwidth Benchmark 內存帶寬測試 |
||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.37 GB/s |
13.78GB/s
|
Float Buff'd iSSE2 Memory Bandwidth | 17.37GB/s |
13.77GB/s
|
Memory Latency Benchmark 內存延遲測試 |
||
Memory(Random Access) Latency (越小越好) | 73.3ns |
89ns
|
Speed Factor (越小越好) | 68.20 |
57.50
|
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 9clocks |
L3 On-board Cache | 35clocks | 47clocks |
Cache and Memory Benchmark 緩存及內存測試 |
||
Cache/Memory Bandwidth | 97.76GB/s |
51.08GB/s
|
Cache/Memory Bandwidth vs SPEED | 27.06MB/s/MHz |
21.79MB/s/MHz
|
Speed Factor (越小越好) | 38.10 |
27.10
|
Internal Data Cache | 427.84GB/s |
205.08GB/s
|
L2 On-board Cache | 287.5GB/s |
175.49GB/s
|
內存帶寬測試中,同樣是雙路的兩款平臺在性能上出現了較大的差異,特別是L3緩存的項目中差距較大,這都是環形總線的功勞。
#p#
CineBench是基于Cinem4D工業三維設計軟件引擎的測試軟件,用來測試對象在進行三維設計時的性能,它可以同時測試處理器子系統、內存子系統以及顯示子系統,我們的平臺偏向于服務器多一些,因此就只有前兩個的成績具有意義。和大多數工業設計軟件一樣,CineBench可以完善地支持多核/多處理器,它的顯示子系統測試基于OpenGL。
CineBench R10
|
||
產品名稱 | 至強E3-1275 | 至強X3430 |
平臺類型 | 單路Sandy Bridge | 單路Lynnfield |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6041 CB-CPU | 3868 CB-CPU |
Rendering (x CPU) | 23643 CB-CPU | 12964 CB-CPU |
Multiprocessor Speedup | 3.91x |
3.35x
|
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 7690 CB-GFX |
至強E3-1275處理器。
#p#
本次測試的至強E3-1275是E3系列的高端產品,具備了4核心8線程,性能非常強悍。下面,我們將關閉E3-1275的超線程功能,觀察在這個狀態下它的性能表現,以便總結超線程技術對于Sandy Bridge處理器的影響。
SiSoftware Sandra Lite 2011
|
||
產品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
Processor Arithmetic Benchmark 處理器算術運算測試 |
||
---|---|---|
Dhrystone ALU | 136.74GIPS |
106.77GIPS
|
Dhrystone ALU vs SPEED | 35.98MIPS/MHz | 28.86MIPS/MHz |
Whetstone iSSE3 | 83.43 GFLOPS |
49.57 GFLOPS
|
Dhrystone iSSE3 vs SPEED | 21.96 MFLOPS/MHz |
13.40MFLOPS/MHz
|
Processor Multi-Media Benchmark 處理器多媒體測試 |
||
Multi-Media Int x16 iSSE4.1 | 201.26MPixel/s |
163.79MPixel/s
|
Multi-Media Int x16 iSSE4.1 vs SPEED | 78.26 kPixels/s/MHz |
63.69kPixels/s/MHz
|
Multi-Media Float x8 iSSE2 | 153MPixel/s |
111.37 MPixel/s
|
Multi-Media Float x8 iSSE2 vs SPEED | 59.48 kPixels/s/MHz |
43.3kPixels/s/MHz
|
Multi-Media Double x4 iSSE2 | 83.54MPixel/s |
60.16MPixel/s
|
Multi-Media Double x4 iSSE2 vs SPEED | 32.49 kPixels/s/MHz |
23.4kPixels/s/MHz
|
Multi-Core Efficiency Benchmark 處理器效能測試 |
||
Inter-Core Bandwidth | 16 GB/s |
8.84GB/s
|
Inter-Core Bandwidth vs SPEED | 4.29 MB/s/MHz |
2.45MB/s/MHz
|
Inter-Core Latency(越小越好) | 42.4ns |
40.2ns
|
Inter-Core Latency vs SPEED(越小越好) | 0.01ns/MHz |
0.11ns/MHz
|
.NET Arithmetic Benchmark .NET算術運算測試 |
||
Dhrystone .NET | 18GIPS |
15.81GIPS
|
Dhrystone .NET vs SPEED | 5MIPS/MHz |
4.16MIPS/MHz
|
Whetstone .NET | 50.1 GFLOPS |
29.34GFLOPS
|
Whetstone .NET vs SPEED | 13.92MFLOPS/MHz |
7.72MFLOPS/MHz
|
.NET Multi-Media Benchmark .NET多媒體測試 |
||
Multi-Media Int x1 .NET | 37.72 MPixel/s |
29.17MPixel/s
|
Multi-Media Int x1 .NET vs SPEED | 9.93MPixel/s |
7.68kPixels/s/MHz
|
Multi-Media Float x1 .NET | 13.7MPixel/s |
8.16MPixel/s
|
Multi-Media Float x1 .NET vs SPEED | 3.61kPixels/s/MHz |
2.15kPixels/s/MHz
|
Multi-Media Double x1 .NET | 27.22 MPixel/s |
16.24MPixel/s
|
Multi-Media Double x1 .NET vs SPEED | 7.16 kPixels/s/MHz |
4.27kPixels/s/MHz
|
對比開啟與關閉超線程的測試數據我們發現,處理器計算性能方面,開啟超線程之后會有30%-50%左右的性能提升,多媒體方面的性能提升為30%左右。而在.NET測試中,這個數值被縮小到了15%-30%,效能測試的時候兩者的差距大約為40%。總體而言,在開啟超線程之后,Sandy Bridge至強處理器在運算性能上會有30%左右的提升,這個數值與Nehalem與Westmere的成績是差不多的,事實上我們也沒發現Sandy Bridge在超線程方面有什么特別大的改動。
#p#
接下來同樣是開啟與關閉超線程下的內存/緩存系統測試。
SiSoftware Sandra Lite 2011
|
||
產品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
Memory Bandwidth Benchmark 內存帶寬測試 |
||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.37 GB/s |
17.78GB/s
|
Float Buff'd iSSE2 Memory Bandwidth | 17.37GB/s |
17.78GB/s
|
Memory Latency Benchmark 內存延遲測試 |
||
Memory(Random Access) Latency (越小越好) | 73.3ns |
73.2ns
|
Speed Factor (越小越好) | 68.20 |
68.30
|
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 11clocks |
L3 On-board Cache | 35clocks | 35clocks |
Cache and Memory Benchmark 緩存及內存測試 |
||
Cache/Memory Bandwidth | 97.76GB/s |
100.55GB/s
|
Cache/Memory Bandwidth vs SPEED | 27.09MB/s/MHz |
27.09MB/s/MHz
|
Speed Factor (越小越好) | 38.10 |
39.10
|
Internal Data Cache | 424.22GB/s |
424.22GB/s
|
L2 On-board Cache | 355.42GB/s |
355.42GB/s
|
相對比的兩臺服務器所作用的處理器都采用了集成內存控制器的設計,由于工作主頻的不同,這兩款不同處理器的QPI傳輸并不一樣,聯想萬全R525 G3所用處理器的QPI帶寬為5.86GT/s,而對比平臺的至強X5570處理器的QPI為6.4GT/s。不過這兩個服務器平臺的內存的實際工作頻率卻并不一樣,雖然在測試中兩個平臺所使用的內存條都是DDR3 1333,聯想萬全R525 G3共安裝了6條,它的實際工作頻率為1066,而對比平臺共裝配了18條內存,內存工作頻率只能達到800MHz,也正是以上這一內存安裝方式的不同,直接導致了處理器QPI頻率較低的聯想萬全R525 G3內存帶寬成績占了上風。
#p#
最后我們進行的是CineBench項目的測試。CineBench測試中有一個處理器核心能效比的內容,我們相信這個項目更可以看出開關超線程之后的性能差距。
CineBench R10
|
||
產品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6041 CB-CPU | 6188 CB-CPU |
Rendering (x CPU) | 23643 CB-CPU | 20886 CB-CPU |
Multiprocessor Speedup | 3.91x | 3.38x |
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 336 CB-GFX |
CineBench10所進行測試項目在于考察單核心與多核心的性能對比。我們可以看到,對于CineBench R10來說,開啟超線程下的MS成績為3.91,關閉的時候只有3.38,相比之下提升了15.6%。
CineBench R11.5
|
||
產品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 1.52 pts | 1.42 pts |
Rendering (x CPU) | 6.84 pts | 5.59 pts |
MP Ratio | 4.51x | 3.95x |
OpenGL Benchmark | ||
OpenGL | - | - |
而在最新的Cinebench R11.5進行的測試中,兩者的成績差距并沒有拉大,依然在15%左右。因為CineBench只考察核心與效能的關系,而之前我們的測試項目更多還依賴于整體平臺的性能,因此單純從提升來說,CineBench只能看到15%的提升,但是開啟超線程之后,整體平臺的提升會更高一些。
#p#
Tick-Tock戰略的出現,使英特爾避免了在同一年更新制程和微架構,有效的規避了新平臺、新制程出現所帶來的商業風險。而將新品首先試水桌面平臺,進而在推廣到服務器平臺也是非常明智的舉措,這次Sandy Bridge處理器就充分說明了這個問題。事實上,由于配套芯片組的問題,Sandy Bridge處理器在推廣之初就遭遇挫折,幸好英特爾的反應夠快,在服務器平臺上我們并沒有發現這樣的問題。而隨著至強Sandy Bridge處理器的推出,也標志著英特爾在桌面和服務器兩個平臺上全面轉向了新的微架構,Tock時代終于到來了。
至強Sandy Bridge處理器終于現身了
Sandy Bridge處理器相比上一代的產品有了非常大的改進,包括AVX指令集、環形總線架構、全新System Agent系統助手、革命性的整合GPU等內容。事實上,Sandy Bridge最大的特征在于全32nm整合CPU和GPU,但對于服務器來說,GPU作為多媒體工具來說并沒有實際的用處,除非可以通過GPU加速運算。
我們再來看看性能。相比上一代的至強3400系列來說,至強E3系列在性能上有了大幅度的提升, 有著至少30%的性能優勢,部分項目的性能優勢得到了翻倍。相比之下,超線程方面自從Nehalem開始為至強處理器增加了這一功能之后,在Sandy Bridge上面我們并沒有看到明顯的革新。
對于至強系列來說,E3僅僅是低端的入門版本,今年英特爾主推的依然是面向雙路服務器應用的E5系列,不過這個系列要等到下半年才可以看到。今天,英特爾發布了E7系列的產品,雖然使用了全新的命名,但是E7卻是我們熟知的Westmere-EX。
我們相信,隨著新一代Sandy Bridge至強處理器的出現,我們在服務器領域可以看到越來越多的、性能更為出色的產品出現。我們期待著這一天的早日到來。
【編輯推薦】