英特爾至強Sandy Bridge首測(圖)

作者：佚名 2011-04-06 09:22:29

Sandy Bridge處理器相比上一代的產品有了非常大的改進，包括AVX指令集、環形總線架構、全新System Agent系統助手、革命性的整合GPU等內容。

前不久，英特爾對外發布了最新的基于Sandy Bridge微架構的32nm至強處理器——E3系列。雖然這并非是英特爾第一次發布基于Sandy Bridge微架構的產品，雖然E3僅僅面向單路應用而生，但不管怎么說，E3的出現的確標志著英特爾在至強處理器發展中邁出了重要的一步，也是Tick-Tock戰略中重要的內容（Tock）。

英特爾至強Sandy Bridge處理器首發評測
英特爾發布Sandy Bridge微架構32nm至強處理器

得益于桌面級Sandy Bridge處理器的成功，許多人對于至強Sandy Brideg處理器也充滿了期待。雖然對于至強處理器應用的服務器環境來說，多媒體性能并非是人們應該關注的內容。而每當提到Sandy Bridge的技術特點——環形總線、AVX指令集、Turbo Boost2等內容都是眾多報道中頻繁出現的內容。究竟這些技術為我們帶來了什么？它們的存在會有哪些的好處。這些還要從Sandy Brideg之前的Nehalem開始說起。

#p#

英特爾Sandy Bridge至強處理器路線圖

按照英特爾著名的時鐘規律——Tick-Tock來看，Sandy Bridge明顯屬于后者，也就是Tock范疇。Tock主要是指處理器微架構方面的改變，而核心工藝的上一次升級已經由我們熟悉的Westmere完成了，下一次22nm的升級還要再等等才行。

在進行系統的分析之前，我們先來看看最新的至強Sandy Bridge處理器路線圖。相比以往的產品來說，Sandy Bridge至強處理器采用了與桌面級酷睿處理器類似的命名規范，分為E3、E5和E7三個系列。其中，E3系列是面向入門級單路服務器的產品，E5系列則面對了主流的雙路服務器平臺。唯一有特點的是E7，這款產品雖然在型號上采用了新的命名規則，但是在本質上E7還是上一代架構的產品，它還有一個大家非常熟悉的名字——Westmere-EX 。

英特爾Sandy Bridge至強處理器路線圖
至強處理器路線圖

本次我們要介紹的至強E3系列屬于面向單路服務器應用的產品，使用的是LGA115接口，也就是圖中的Sandy Bridge-DT。按照產品布局分析，Sandy Bridge-DT主要定位在入門級的單路服務器，雖然同樣是單路，但是高端應用的任務則是由Sandy Bridge-EN來承擔。

#p#

正如我們剛才提到的，新一代的至強Sandy Bridge處理器給我們帶來的一個印象就是采用了環形總線架構，這也是英特爾在繼Nehalem和Westmere之后繼續使用環形總線的架構。

新一代的環形總線，不一樣的核外架構
Sandy Bridge核外架構圖

Sandy Bridge處理器使用了新的環形總線設計。事實上從之前的Nehalem開始，英特爾就轉向了融合核心的理念。在Nehalem當中，英特爾將內存控制器融入其中，而在接下來的Westmere當中，GPU也作為融入的對象而出現（只是那時候的GPU還僅僅使用的是45nm工藝）。在之前的8核心Nehalem-EX上，我們就看到了環形總線的身影，不過當時的產品在性能和功耗上并沒有表現出明顯的優勢。

新一代的環形總線，不一樣的風景

本次Sandy Bridge使用的是重新設計的核外結構，全新的Ring Bus環形總線更能夠較好的展示出Sandy Bridge的真實性能。通過上圖大家可以看到，Ring Bus環形總線連接各個CPU核心、LLC緩存（L3緩存）、融合進去的GPU以及System Agent（系統北橋）等部分。

新一代的環形總線，不一樣的風景

這個圖片或許可以更好的說明問題。新的Ring Bus環形總線由四條獨立的環組成，分別是數據環Data Ring、請求環Request Ring、響應環Acknowledge Ring和偵聽環Snoop Ring。借助于環形總線，CPU與GPU可以共享LLC緩存，將大幅度提升GPU性能。

在這個環形總線上，分布著多個Ring Stop，也就是俗稱的“站臺”。這個“站臺”在每個CPU/LLC塊上具有兩個連接點，而之前使用環形總線的產品，也就是Nehalem-EX環在每個CPU/LLC塊上只有一個連接點。

環形總線的存在，可以大大減少核心訪問三級緩存的周期。在以往的產品中，多個核心共享一個三級緩存，需要訪問的話必須先經過流水線發送請求，在進行優先級排序之后才能進行。新的環形總線將三級緩存分割成了若干部分，借助于每個站臺，核心可以快速的訪問LLC。LLC小容量緩存的延遲優勢與核心頻率一致性在這里也就體現了出來，這就使得Sandy Bridge的周期相比以往產品有所縮減，從原來的35-40個縮減到了26-31個。同時，由于每個核心與LLC之間可以提供若干帶寬，使得Sandy Bridge的整體帶寬也提升了4倍。

#p#

在Sandy Bridge處理器中，英特爾使用了一個全新的概念——System Agent（系統助手）。事實上，System Agent也就是我們之前所說的核外架構，只是英特爾本次給予了其全新的命名，而在以往的名稱中，我們親切的稱之為系統北橋。

比智能更智能SandyBridge架構全解析
系統助手

System Agent包含了比以往產品更為豐富的功能，包括整合內存控制器、支持16條PCIE2.0通道的PCIE控制器、圖形處理器（GPU）、電源控制單元（PCU）以及DMI總線的IO接口。

PCI-E控制器，可提供16條PCI-E 2.0信道，支持單條PCI-E x16或者兩條PCI-E x8插槽；

重新設計的雙通道DDR3內存控制器，內存延遲也恢復了正常水平(Westmere將內存控制器移出CPU、放到了GPU上)；

此外還有DMI總線接口、顯示引擎、電源控制單元(PCU)。

系統助手的頻率要低于其他部分，有自己獨立的電源層。

#p#

在Sandy Bridge處理器中，最大的改進要算是增加了全新的AVX指令集——Advanced Vector Extensions，高級矢量擴展。這個指令集的增加是X86處理器中的重要內容，不僅僅是提供了更為良好的性能，同時也是對現有指令集的整合與優化。

新加入AVX指令集，整合與優化并存

介紹AVX指令集之前，先要引入一個向量的概念。所謂向量，就是多個標量的組合，通常意味著SIMD（單指令多數據），就是一個指令同時對多個數據進行處理，達到很大的吞吐量。早在1996年，英特爾就在X86架構上應用了MMX（多媒體擴展）指令集，那時候還僅僅是64位向量。到了1999年，SSE（流式SIMD擴展）指令集出現了，這時候的向量提升到了128位。

如今，Sandy Bridge的AVX將向量化寬度擴展到了256位，原有的16個128位XMM寄存器擴充為256位的YMM寄存器，可以同時處理8個單精度浮點數和4個雙精度浮點數。換句話說，Sandy Bridge的浮點吞吐能力可以達到前代的兩倍。不過現在，AVX的256位向量還僅僅能夠支持浮點運算。不過AVX的特別之處在于，它可以應用128位的SIMD整數和SIMD浮點路徑。

AVX指令集是和Sandy Bridge微架構緊密結合的，因此，微架構的浮點寄存器也要從128位擴展到256位，此外，Load單元也要適應一次載入256位的能力，Sandy Bridge沒有直接擴展原有Load單元的位寬，而是通過增加了一個Load單元來達到256bit Load的能力。

在進行新性能擴展的同時，AVX指令集的出現對于原有的X86指令集也進行了優化與重新組合——這主要源于AVX指令集新的操作碼編碼方式。AVX指令集的編碼方式叫做VEX（Vector Extension），其主要用途是縮短指令長度，降低無謂的代碼冗余，并且也降低了對解碼器的壓力，實現的方式也很特別——壓縮各式各樣的Prefix前綴，集中到一個比較固定的字段中，從而達到了精簡指令集的目的。

#p#

既然我們一直在討論Sandy Bridge核心，那么不談到其特色的整合GPU顯然是不合適的，雖然對于服務器的應用來說多媒體性能的確是無足輕重。其實我們在文章最初就提到過，作為Tioc-Tock時鐘式的重要內容，其實從Wesrtmere 32nm處理器開始，英特爾就在處理器中整合了GPU，不過僅僅是將二者封裝在一個Die上。因為45nm的GPU與32nm的CPU在制程上不一致，最重要的是關鍵的內存控制器被放在了45nm的GPU當中，造成了32nm Westmere性能并沒有想象的那么出色。而在Tock中，Sandy Bridge的出現解決了這一問題，特別是將GPU整合在了環形總線之內，實現了二者真正的融合。

革命性的整合GPU，32nm終成正果

SandyBridge GPU有自己的電源島和時鐘域，也支持Turbo Boost技術，可以獨立加速或降頻，并共享三級緩存。顯卡驅動會控制訪問三級緩存的權限，甚至可以限制GPU使用多少緩存。將圖形數據放在緩存里就不用繞道去遙遠而“緩慢”的內存了，這對提升性能、降低功耗都大有裨益。

革命性的整合GPU，32nm終成正果

可編程著色硬件被稱為EU，包含著色器、核心、執行單元等，可以從多個線程雙發射時取指令。內部ISA映射和絕大多數DX10.1 API指令一一對應，架構很像CISC，結果就是有效擴大了EU的寬度，IPC也顯著提升。抽象數學運算由EU內的硬件負責，性能得以同步提高。

　英特爾此前的圖形架構中，寄存器文件都是即時重新分配的。如果一個線程需要的寄存器較少，剩余寄存器就會分配給其他線程。這樣雖能節省核心面積，但也會限制性能，很多時候線程可能會面臨沒有寄存器可用的尷尬。在芯片組集成時代，每個線程平均64個寄存器，Westmere HD Graphics提高到平均80個，Sandybridge則每個線程固定為120個。

#p#

好了，介紹了這么多，終于輪到我們本次評測的主角——至強E3系列登場了。關于至強E3系列，一共有7款產品，其中兩款為超低功耗版的產品。它們的主頻最低為2.2GHz，最高為2.5GHz。

無法平滑升級，至強E3-1270登場

本次我們拿到的測試產品是E3系列中的E3-1275和E3-1220。前者是E3系列中的高端產品，主頻為3.4GHz，支持超線程技術，TDP為80W；后者是E3系列標準版中的最低規格，主頻僅為3.1GHz，不支持超線程技術。其中，整合GPU的處理器命名統一以5結尾。

至強E3-1275登場
至強E3-1220處理器

至強E3-1275處理器

LGA1155接口處理器

至強E3系列處理器采用的是LGA1155接口，從處理器的背面來看其布局與LGA1156有非常大的區別，也就是說用戶不可能直接從LGA1156平滑升級到LGA1155處理器，必須要更換平臺。

至強E3-1275登場

對于桌面級的Sandy Bridge處理器來說，6系列芯片組，包括P67和H67都是比較好的選擇。而在本次測試中，由于我們暫未難道應用于E3系列處理器的主板，因此在測試中我們只能選擇P67芯片組進行。這次，我們將針對高端的E3-1270處理器進行測試。

#p#

對于至強E3-1270處理器的測試，我們搭建了一套專門的平臺，具體配置如下：

處理器子系統
平臺信息服務器
產品名稱	至強E3-1275處理器
平臺類型	英特爾 P67芯片組
處理器型號	英特爾 Xeon E3-1275
處理器架構	英特爾 32nm Sandy Bridge
代號	Sandy Bridge
處理器封裝	Socket 1155 LGA
核心/線程數量	4/8
主頻	3.4GHz
處理器指令集	MMX,SSE,SSE2,SSE3, SSE4.1,SSE4.2,EM64T,VT-x,AES
外部總線	2×QPI 2933MHz 6.40GT/s 單向12.8GB/s（QPI）雙向25.6GB/s（QPI）
L1 Code Cache	4× 32KB 8路集合關聯
L1 Data Cache	4× 32KB 4路集合關聯
L2 Cache	4× 256KB 8路集合關聯
L3 Cache	8MB 16路集合關聯
服務器主板
主板型號	英特爾 DP67BG
主板芯片組	英特爾 P67
北橋芯片特性	2×QPI VT-d Gen 2
內存子系統
內存控制器	每CPU集成雙通道R-ECC DDR3 1333
內存類型	2GB R-ECC DDR3 1333 SDRAM ×4條
存儲子系統
磁盤控制器	英特爾 ICH10R SATA AHCI Controller
磁盤控制器規格	4x SATA 3Gb/s+2x SATA 6Gb/s AHCI w/ NCQ RAID 0/1/10
控制器驅動	英特爾 Matrix Storage Manager 8.8.0.1009
硬盤型號數量	Seagate Barracuda 7200.12 ST3250318AS
硬盤規格	7200RPM 500GB SATA 3Gb/s NCQ 16MB Cache
網絡連通性
網卡控制器	英特爾 82576EB Port Gigabit Network Controller
網卡驅動	英特爾 PRO Set 15.8.76.0
軟件環境
操作系統	Windows Server 2008 R2 Enterprise Edition SP1 x64

本次我們為這款平臺搭配的是Windows Server 2008 R2操作系統，而且還增加了SP1補丁。剛剛我們在介紹AVX指令集的時候提到，這個指令集在SP1版本下有比較好的表現，因此我們特別安裝了SP1補丁。平臺方面，P67平臺是當下我們的無奈選擇，好在這個是英特爾原廠的主板，還算是比較搭配。出于測試SPEC CPU 2006的考慮，我們為平臺搭配了4條宇瞻 DDR3 1333內存，這樣系統的內存容量達到了16GB。

#p#

對于服務器性能方面的考察，我們主要分為子系統測試和應用性能測試。在子系統測試中我們按處理器、內存以及磁盤等各個子系統進行了分項測試，當然各子系統的測試成績也是相輔相成，也需要其它子系統的支持，并非是完全獨立的，只是對考察的子系統有所偏重而已。

處理器子系統測試

對服務器處理器子系統的考察，我們主要采用的是業界公認的SPEC CPU 2006測試，該項測試通過對數十個典型應用程序的運行，來測試系統處理器子系統在應用中的整、浮點運算效率。SPEC CPU 2006測試具有很好的開放性，因此在業界為廣大用戶所接受，可以利用這一公開的測試結果進行系統間運算性能的比較。

此外SiSoftware Sandra也有測試子項可用于處理器運算性能測試，其結果通常以每秒完成的指令數來表現。也可以用作不同處理器間運算效率的比較。

SPEC CPU 2006 v1.1

SPEC是標準性能評估公司（Standard Performance Evaluation Corporation）的簡稱。SPEC是由計算機廠商、系統集成商、大學、研究機構、咨詢等多家公司組成的非營利性組織，這個組織的目標是建立、維護一套用于評估計算機系統的標準。

SPEC CPU 2006是SPEC組織推出的CPU子系統評估軟件最新版，我們之前使用的是SPEC CPU 2000。和上一個版本一樣，SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目，前者用于測量和對比整數性能，后者則用于測量和對比浮點性能，SPEC CPU 2006中對SPEC CPU 2000中的一些測試進行了升級，并拋棄/加入了一些測試，因此兩個版本測試得分并沒有可比較性。

SPEC CPU測試中，測試系統的處理器、內存子系統和使用到的編譯器（SPEC CPU提供的是源代碼，并且允許測試用戶進行一定的編譯優化）都會影響最終的測試性能，而I/O（磁盤）、網絡、操作系統和圖形子系統對于SPEC CPU2006的影響非常的小。

SPECfp測試過程中同時執行多個實例（instance），測量系統執行計算密集型浮點操作的能力，比如CAD/CAM、科學計算等方面應用可以參考這個結果。SPECint測試過程中同時執行多個實例（instances），然后測試系統同時執行多個計算密集型整數操作的能力，可以很好的反映諸如數據庫服務器、電子郵件服務器和Web服務器等基于整數應用的多處理器系統的性能。

我們在被測服務器中安裝了英特爾 C++ 11.1.034 Compiler、英特爾 Fortran 11.1.034 Compiler這兩款SPEC CPU 2006必需的編譯器，通過最新出現的QxS編譯參數，英特爾 Compiler 10版本開始支持對英特爾 SSE4指令集進行優化（假如只支持SSE3，則使用QxT編譯參數）。我們另外安裝了Microsoft Visual Studio 2003 SP1提供必要的庫文件。按照SPEC的要求我們根據自己的情況編輯了新的Config文件，使用了較多的編譯選項。我們根據被測系統選擇實際可同時處理的線程數量，最后得到SPEC rate base測試結果（基于base標準編譯，SPEC base rate測試代表系統同時處理多個任務的能力）。

和其它測試部件不同，SPEC CPU 2006需要大量的系統物理內存，我們的SPEC測試在64位的Windows Server 2008 R2 下完成，對于每個運算核心，最低配置1.5GB內存。

內存子系統測試

對于內存子系統的考察，也是利用SiSoftware Sandra來實現，在該軟件中有相應組件可進行內存帶寬、內存延遲等方面的測試。

SiSoftware Sandra v2011

SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統上的分析軟件，這款軟件可以對于系統進行方便、快捷的基準測試，還可以用于查看系統的軟件、硬件等信息。從2007開始，Sandra的Arithmetic benchmarks增加了對SSE3&SSE4 SSE4的支持，在Multi-Media benchmark中增加了對于SSE4的支持，另外還升級了File System benchmark和Removable Storage benchmark兩個子項目。對于新的硬件的支持當然也是該軟件每次升級的重要內容之一，SiSoftware Sandra 2010對NUMA架構以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持，此外測試項目和測試結果也有了略微的變化。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優化，最高可支持32/64路平臺。

#p#

激動人心的時刻終于到來了。對于一款處理器來說，許多人都喜歡使用CPU-Z來觀察它的規格。下面我們就一起來看看至強Sandy Bridge處理器給我們帶來了什么。

CPU-Z軟件檢測信息
因為測試處理器為ES版，所以依然識別為Core i7處理器，不過下面一行倒是看得很清楚——E3 1275

8MB三級緩存，由4個核心共享，每核心分配2MB

測試主板使用的是P67芯片組

CPU-Z軟件檢測信息

我們使用了4條宇瞻4GB DDR3 1333內存，系統總內存容量為16GB

#p#

AIDA64（原EVEREST）是一個測試軟硬件系統信息的工具，它可以詳細的顯示出PC硬件每一個方面的信息。支持上千種(3400+)主板，支持上百種(360+)顯卡，支持對并口/串口/USB這些PNP設備的檢測，支持對各式各樣的處理器的偵測。支持查看遠程系統信息和管理，結果導出為HTML、XML功能。

之前這款軟件命名為AIDA32，后改名為EVEREST，現在又改名為AIDA64，真是夠折騰的。

Everest軟件檢測信息
E3-1275支持超線程技術，我們可以看到完整的8個線程

P67主板僅能夠支持雙通道內存，不過我們剛剛在介紹System Agent的說過，這個雙通道是經過重新設計的

系統北橋實際上就是System Agent，因為我們使用的是P67而非H67，所以顯示自帶的GPU已禁用
Everest軟件檢測信息
主板南橋信息

#p#

SPEC CPU 2006的浮點運算測試包括的全部都是科學運算，科學運算需要用到大量的高精度浮點數據，如410.bwaves 流體力學、416.gamess 量子化學、433.milc 量子力學、434.zeusmp 物理：計算流體力學、435.gromacs 生物化學/分子力學、436.cactusADM 物理：廣義相對論、437.leslie3d 流體力學、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 線形編程、優化、453.povray 影像光線追蹤、454.calculix 結構力學、459.GemsFDTD 計算電磁學、465.tonto 量子化學、470.lbm 流體力學、481.wrf 天氣預報、482.sphinx3 語音識別共17項測試。

SPEC CPU 2006整點運算性能測試

首先我們看到的是浮點預算的測試成績，我們采用的對比處理器為至強X3430。至強X3430是上一代的單路服務器產品，采用45nm工藝，其主頻為2.4GHz，4核心4線程。從這個測試結果來看，E3-1275大幅度領先于對比產品，許多項目的性能提升在一倍以上。

這個原因是多方面的。首先從主頻上來看，E3-1275相比X3430提升了1GHz的主頻，差距很明顯；其次是超線程的應用，8線程相比4線程也提升了一倍；第三是處理器微架構的差別，包括整體的設計及制造工藝。因此，至強E3-1275的明顯優勢也就沒什么好奇怪的了。

#p#

SPEC CPU 2006整數運算主要包含編譯、壓縮、人工智能、視頻壓縮轉換、XML處理等，此外，各種日常操作也主要是基于整數操作。SPEC CPU 2006的整數運算包含了400.perlbench PERL編程語言、401.bzip2 壓縮、403.gcc C編譯器、429.mcf 組合優化、445.gobmk 人工智能：圍棋、456.hmmer 基因序列搜索、458.sjeng 人工智能：國際象棋、462.libquantum 物理：量子計算、464.h264ref 視頻壓縮、471.omnetpp 離散事件仿真、473.astar 尋路算法、483.xalancbmk XML處理共12項。

SPEC CPU 2006整數運算性能測試

剛才我們說過了E3-1275在硬件規格及軟件設計上的三點優勢，這些優勢在整數運算中表現更為明顯，部分項目領先了X3430達5倍之多。

#p#

SiSoftware Sandra是一款很不錯的軟件，但是對于Sandy Bridge平臺來說，原來的2010版本已經不能使用，而目前提供免費下載的版本型號為2011Lite。相比我們之前使用的Business版本來說，Lite版簡化了許多的功能，還好我們常用的測試項目都還在。

在成績分析前我們必須要清楚，這兩個相對比的服務器平臺所配的處理器分屬于英特爾至強5500和5600前后兩個不同的系列，雖然二者每個處理器都是4個核心，但是二者的工作頻率卻有比較大的差距，聯想萬全R525 G3采用的至強E5620的工作主頻為2.4GHz，是至強5600系列中主頻最低的，而對比服務器平臺所選用的至強X5570卻是至強5500系列中工作主頻最高的，為2.93GHz。接下來的對比也將是兩個處理器配置懸殊的服務器平臺間的較量。

Processor Arithmetic Benchmark 處理器算術運算測試
SiSoftware Sandra Lite 2011
產品名稱	至強E3-1275	至強X3430
平臺類型	單路Sandy Bridge	單路Lynnfield
Dhrystone ALU	136.74GIPS	62244MIPS
Dhrystone ALU vs SPEED	35.98MIPS/MHz	48.75MIPS/MHz
Whetstone iSSE3	83.43 GFLOPS	29187MFLOPS
Dhrystone iSSE3 vs SPEED	21.96 MFLOPS/MHz	12.16MFLOPS/MHz
Processor Multi-Media Benchmark 處理器多媒體測試
Multi-Media Int x16 iSSE4.1	201.26MPixel/s	106.74MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED	78.26 kPixels/s/MHz	44.48kPixels/s/MHz
Multi-Media Float x8 iSSE2	153MPixel/s	81.28MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED	59.48 kPixels/s/MHz	33.87kPixels/s/MHz
Multi-Media Double x4 iSSE2	83.54MPixel/s	42.24MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED	32.49 kPixels/s/MHz	17.60kPixels/s/MHz
Multi-Core Efficiency Benchmark 處理器效能測試
Inter-Core Bandwidth	16 GB/s	13.27GB/s
Inter-Core Bandwidth vs SPEED	4.29 MB/s/MHz	5.66MB/s/MHz
Inter-Core Latency(越小越好)	42.4ns	60ns
Inter-Core Latency vs SPEED(越小越好)	0.01ns/MHz	0.03ns/MHz
.NET Arithmetic Benchmark .NET算術運算測試
Dhrystone .NET	18GIPS	11567MIPS
Dhrystone .NET vs SPEED	5MIPS/MHz	4.82MIPS/MHz
Whetstone .NET	50.1 GFLOPS	26730MFLOPS
Whetstone .NET vs SPEED	13.92MFLOPS/MHz	11.14MFLOPS/MHz
.NET Multi-Media Benchmark .NET多媒體測試
Multi-Media Int x1 .NET	37.72 MPixel/s	21.93MPixel/s
Multi-Media Int x1 .NET vs SPEED	9.93MPixel/s	9.14kPixels/s/MHz
Multi-Media Float x1 .NET	13.7MPixel/s	7.26MPixel/s
Multi-Media Float x1 .NET vs SPEED	3.61kPixels/s/MHz	3.03kPixels/s/MHz
Multi-Media Double x1 .NET	27.22 MPixel/s	11.82MPixel/s
Multi-Media Double x1 .NET vs SPEED	7.16 kPixels/s/MHz	4.92kPixels/s/MHz

依然是一邊倒的成績，我們甚至覺得選擇X3430作為對比產品有點怠慢了E3-1275。不過沒辦法，單路服務器處理器數量太少，我們手中的數據有較為有限。

#p#

Memory Bandwidth Benchmark 內存帶寬測試
SiSoftware Sandra Lite 2011
產品名稱	至強E3-1275	至強X3430
平臺類型	單路Sandy Bridge	單路Lynnfield
Int Buff'd iSSE2 Memory Bandwidth	17.37 GB/s	13.78GB/s
Float Buff'd iSSE2 Memory Bandwidth	17.37GB/s	13.77GB/s
Memory Latency Benchmark 內存延遲測試
Memory(Random Access) Latency (越小越好)	73.3ns	89ns
Speed Factor (越小越好)	68.20	57.50
Internal Data Cache	4clocks	4clocks
L2 On-board Cache	11clocks	9clocks
L3 On-board Cache	35clocks	47clocks
Cache and Memory Benchmark 緩存及內存測試
Cache/Memory Bandwidth	97.76GB/s	51.08GB/s
Cache/Memory Bandwidth vs SPEED	27.06MB/s/MHz	21.79MB/s/MHz
Speed Factor (越小越好)	38.10	27.10
Internal Data Cache	427.84GB/s	205.08GB/s
L2 On-board Cache	287.5GB/s	175.49GB/s

內存帶寬測試中，同樣是雙路的兩款平臺在性能上出現了較大的差異，特別是L3緩存的項目中差距較大，這都是環形總線的功勞。

#p#

CineBench是基于Cinem4D工業三維設計軟件引擎的測試軟件，用來測試對象在進行三維設計時的性能，它可以同時測試處理器子系統、內存子系統以及顯示子系統，我們的平臺偏向于服務器多一些，因此就只有前兩個的成績具有意義。和大多數工業設計軟件一樣，CineBench可以完善地支持多核/多處理器，它的顯示子系統測試基于OpenGL。

開啟超線程CineBench性能測試

CPU Benchmark
CineBench R10
產品名稱	至強E3-1275	至強X3430
平臺類型	單路Sandy Bridge	單路Lynnfield
Rendering (1 CPU)	6041 CB-CPU	3868 CB-CPU
Rendering (x CPU)	23643 CB-CPU	12964 CB-CPU
Multiprocessor Speedup	3.91x	3.35x
OpenGL Benchmark
OpenGL Standard	335 CB-GFX	7690 CB-GFX

至強E3-1275處理器。

#p#

本次測試的至強E3-1275是E3系列的高端產品，具備了4核心8線程，性能非常強悍。下面，我們將關閉E3-1275的超線程功能，觀察在這個狀態下它的性能表現，以便總結超線程技術對于Sandy Bridge處理器的影響。

Processor Arithmetic Benchmark 處理器算術運算測試
SiSoftware Sandra Lite 2011
產品名稱	至強E3-1275（開啟）	至強E3-1275（關閉）
平臺類型	單路Sandy Bridge	單路Sandy Bridge
Dhrystone ALU	136.74GIPS	106.77GIPS
Dhrystone ALU vs SPEED	35.98MIPS/MHz	28.86MIPS/MHz
Whetstone iSSE3	83.43 GFLOPS	49.57 GFLOPS
Dhrystone iSSE3 vs SPEED	21.96 MFLOPS/MHz	13.40MFLOPS/MHz
Processor Multi-Media Benchmark 處理器多媒體測試
Multi-Media Int x16 iSSE4.1	201.26MPixel/s	163.79MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED	78.26 kPixels/s/MHz	63.69kPixels/s/MHz
Multi-Media Float x8 iSSE2	153MPixel/s	111.37 MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED	59.48 kPixels/s/MHz	43.3kPixels/s/MHz
Multi-Media Double x4 iSSE2	83.54MPixel/s	60.16MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED	32.49 kPixels/s/MHz	23.4kPixels/s/MHz
Multi-Core Efficiency Benchmark 處理器效能測試
Inter-Core Bandwidth	16 GB/s	8.84GB/s
Inter-Core Bandwidth vs SPEED	4.29 MB/s/MHz	2.45MB/s/MHz
Inter-Core Latency(越小越好)	42.4ns	40.2ns
Inter-Core Latency vs SPEED(越小越好)	0.01ns/MHz	0.11ns/MHz
.NET Arithmetic Benchmark .NET算術運算測試
Dhrystone .NET	18GIPS	15.81GIPS
Dhrystone .NET vs SPEED	5MIPS/MHz	4.16MIPS/MHz
Whetstone .NET	50.1 GFLOPS	29.34GFLOPS
Whetstone .NET vs SPEED	13.92MFLOPS/MHz	7.72MFLOPS/MHz
.NET Multi-Media Benchmark .NET多媒體測試
Multi-Media Int x1 .NET	37.72 MPixel/s	29.17MPixel/s
Multi-Media Int x1 .NET vs SPEED	9.93MPixel/s	7.68kPixels/s/MHz
Multi-Media Float x1 .NET	13.7MPixel/s	8.16MPixel/s
Multi-Media Float x1 .NET vs SPEED	3.61kPixels/s/MHz	2.15kPixels/s/MHz
Multi-Media Double x1 .NET	27.22 MPixel/s	16.24MPixel/s
Multi-Media Double x1 .NET vs SPEED	7.16 kPixels/s/MHz	4.27kPixels/s/MHz

對比開啟與關閉超線程的測試數據我們發現，處理器計算性能方面，開啟超線程之后會有30%-50%左右的性能提升，多媒體方面的性能提升為30%左右。而在.NET測試中，這個數值被縮小到了15%-30%，效能測試的時候兩者的差距大約為40%。總體而言，在開啟超線程之后，Sandy Bridge至強處理器在運算性能上會有30%左右的提升，這個數值與Nehalem與Westmere的成績是差不多的，事實上我們也沒發現Sandy Bridge在超線程方面有什么特別大的改動。

#p#

接下來同樣是開啟與關閉超線程下的內存/緩存系統測試。

Memory Bandwidth Benchmark 內存帶寬測試
SiSoftware Sandra Lite 2011
產品名稱	至強E3-1275（開啟）	至強E3-1275（關閉）
平臺類型	單路Sandy Bridge	單路Sandy Bridge
Int Buff'd iSSE2 Memory Bandwidth	17.37 GB/s	17.78GB/s
Float Buff'd iSSE2 Memory Bandwidth	17.37GB/s	17.78GB/s
Memory Latency Benchmark 內存延遲測試
Memory(Random Access) Latency (越小越好)	73.3ns	73.2ns
Speed Factor (越小越好)	68.20	68.30
Internal Data Cache	4clocks	4clocks
L2 On-board Cache	11clocks	11clocks
L3 On-board Cache	35clocks	35clocks
Cache and Memory Benchmark 緩存及內存測試
Cache/Memory Bandwidth	97.76GB/s	100.55GB/s
Cache/Memory Bandwidth vs SPEED	27.09MB/s/MHz	27.09MB/s/MHz
Speed Factor (越小越好)	38.10	39.10
Internal Data Cache	424.22GB/s	424.22GB/s
L2 On-board Cache	355.42GB/s	355.42GB/s

相對比的兩臺服務器所作用的處理器都采用了集成內存控制器的設計，由于工作主頻的不同，這兩款不同處理器的QPI傳輸并不一樣，聯想萬全R525 G3所用處理器的QPI帶寬為5.86GT/s，而對比平臺的至強X5570處理器的QPI為6.4GT/s。不過這兩個服務器平臺的內存的實際工作頻率卻并不一樣，雖然在測試中兩個平臺所使用的內存條都是DDR3 1333，聯想萬全R525 G3共安裝了6條，它的實際工作頻率為1066，而對比平臺共裝配了18條內存，內存工作頻率只能達到800MHz，也正是以上這一內存安裝方式的不同，直接導致了處理器QPI頻率較低的聯想萬全R525 G3內存帶寬成績占了上風。

#p#

最后我們進行的是CineBench項目的測試。CineBench測試中有一個處理器核心能效比的內容，我們相信這個項目更可以看出開關超線程之后的性能差距。

CPU Benchmark
CineBench R10
產品名稱	至強E3-1275（開啟）	至強E3-1275（關閉）
平臺類型	單路Sandy Bridge	單路Sandy Bridge
Rendering (1 CPU)	6041 CB-CPU	6188 CB-CPU
Rendering (x CPU)	23643 CB-CPU	20886 CB-CPU
Multiprocessor Speedup	3.91x	3.38x
OpenGL Benchmark
OpenGL Standard	335 CB-GFX	336 CB-GFX

CineBench10所進行測試項目在于考察單核心與多核心的性能對比。我們可以看到，對于CineBench R10來說，開啟超線程下的MS成績為3.91，關閉的時候只有3.38，相比之下提升了15.6%。

CPU Benchmark
CineBench R11.5
產品名稱	至強E3-1275（開啟）	至強E3-1275（關閉）
平臺類型	單路Sandy Bridge	單路Sandy Bridge
Rendering (1 CPU)	1.52 pts	1.42 pts
Rendering (x CPU)	6.84 pts	5.59 pts
MP Ratio	4.51x	3.95x
OpenGL Benchmark
OpenGL	-	-

而在最新的Cinebench R11.5進行的測試中，兩者的成績差距并沒有拉大，依然在15%左右。因為CineBench只考察核心與效能的關系，而之前我們的測試項目更多還依賴于整體平臺的性能，因此單純從提升來說，CineBench只能看到15%的提升，但是開啟超線程之后，整體平臺的提升會更高一些。

#p#

Tick-Tock戰略的出現，使英特爾避免了在同一年更新制程和微架構，有效的規避了新平臺、新制程出現所帶來的商業風險。而將新品首先試水桌面平臺，進而在推廣到服務器平臺也是非常明智的舉措，這次Sandy Bridge處理器就充分說明了這個問題。事實上，由于配套芯片組的問題，Sandy Bridge處理器在推廣之初就遭遇挫折，幸好英特爾的反應夠快，在服務器平臺上我們并沒有發現這樣的問題。而隨著至強Sandy Bridge處理器的推出，也標志著英特爾在桌面和服務器兩個平臺上全面轉向了新的微架構，Tock時代終于到來了。

IT168評測中心觀點
至強Sandy Bridge處理器終于現身了

Sandy Bridge處理器相比上一代的產品有了非常大的改進，包括AVX指令集、環形總線架構、全新System Agent系統助手、革命性的整合GPU等內容。事實上，Sandy Bridge最大的特征在于全32nm整合CPU和GPU，但對于服務器來說，GPU作為多媒體工具來說并沒有實際的用處，除非可以通過GPU加速運算。

我們再來看看性能。相比上一代的至強3400系列來說，至強E3系列在性能上有了大幅度的提升，有著至少30%的性能優勢，部分項目的性能優勢得到了翻倍。相比之下，超線程方面自從Nehalem開始為至強處理器增加了這一功能之后，在Sandy Bridge上面我們并沒有看到明顯的革新。

對于至強系列來說，E3僅僅是低端的入門版本，今年英特爾主推的依然是面向雙路服務器應用的E5系列，不過這個系列要等到下半年才可以看到。今天，英特爾發布了E7系列的產品，雖然使用了全新的命名，但是E7卻是我們熟知的Westmere-EX。

我們相信，隨著新一代Sandy Bridge至強處理器的出現，我們在服務器領域可以看到越來越多的、性能更為出色的產品出現。我們期待著這一天的早日到來。

【編輯推薦】

48核的瘋狂！惠普G7服務器評測(多圖)
細節定成敗 IBM x3550 M3服務器評測(多圖)
ECC內存絕配英特爾至強E3-1280評測(圖)

責任編輯：景琦來源： it168

英特爾至強Sandy Bridge 處理器評測

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英特爾至強Sandy Bridge首測(圖)