年度GPU架構回顧 顯示世界的2012
同樣屬于架構革新的2012
過去的2012年里,無論是AMD還是NVIDIA都在圖形架構技術層面上銳意進取,為我們帶來了Compute Unit以及GPU Boost等等先進的技術,這些技術對于顯卡產品的推動和促進作用是顯著的。但對于我們以及整個業界來說,光有這些技術的進步還遠遠不夠。
如果孤立存在,即便再優秀再精妙的技術,也無法轉變成任何對我們有益的結果。只有將這些技術系統的融合在一起,調整好彼此的關系并令其發揮最佳的效果,技術的進步才能為我們帶來切實的好處。所以對技術融合在一起所形成的架構進行回顧,也就變得有意義了。
技術的進步帶動了AMD及NVIDIA在GPU架構層面的進步,讓2012年不僅是技術進步年,更是GPU架構進步年。先后出現的GCN和開普勒(Kepler)體系都是雙方技術進步的集大成者,它們成功地將雙方全部的技術進步轉化成了產品性能的提升,但細化到架構內部,雙方的表現卻并不都是積極向好的。同樣的甚至是彼此一一對應的各種先進技術所組成的Tahiti和開普勒,最終卻并沒有一起收獲成功。
勝利者從不缺乏贊美,贊美本身對勝利者以及旁觀者都沒有任何意義。只有找到導致問題的本源,并從由此探究更深層次的問題,我們才能明白圖形界在過去的2012年里究竟經歷了些什么。友站ZOL今天就帶我們一覽了2012年里出現在我們面前的所有圖形架構,并揭示了決定AMD/NVIDIA架構之戰結局的原因。
令人眼前一亮的Tahiti
AMD從2011年年中便曝光了全新一代的GCN(Graphic Core Next)架構體系,其后陸續到來的Tahiti、Pitcairn以及Cape Verde均基于該體系。GCN的整個信息披露過程相當系統和全面。按照AMD公布的信息,GCN將會帶來大量革命性的技術革新,幾乎將先前AMD GPU架構的各種問題一掃而空。在這些新技術情報帶來的希望中,人們迎來了GCN的首款核心——Tahiti。
GCN的Tahiti架構打開了2012顯卡架構年的大門
Tahiti是GCN體系的旗艦級核心,擁有超過43億的晶體管規模。與上代的Cayman構架相比,其運算資源總量提升到了2048個流處理器,紋理拾取和載入與存儲單元則提升至恐怖的512個,紋理過濾單元由Cayman的96個增加到了128個,但同時構成后端的ROP光柵單元與Cayman維持相同,均為32個。HD7970擁有全新設計的MC結構,6個64bit雙通道顯存控制器組合形成了全新的384bit顯存控制單元,HD7970也因此采用了容量達3072MB的顯存體系。
Tahiti構架特性
Tahiti架構的特色由五個主要的部分組成:
1、基于HKMG的臺積電新28nm工藝。
2、包含了幾何引擎、光柵化引擎以及一級線程管理機制的前端ACE( Asynchronous Compute Engine)。
3、負責處理運算任務及Pixel Shader的32個CU(Compute Unit)集群,包含在CU內部負責處理材質以及特種運算任務如卷積、快速傅里葉變換等的Texture Array,二級線程管理機制以及與它們對應的shared+unified cache等緩沖體系。
4、負責完成fillrate過程以及輸出最終畫面的ROP陣列,顯存控制器MC(Memory Controller)以及PCI-Express3.0總線傳輸控制端。
5、負責視頻回放及處理的UVD3.0單元,以及全新的負責視頻編碼部分的VCE。
HD7970構架
相對于前代的Cayman構架,Tahiti構架有了諸多觸及靈魂深處的改動。它改進了Cayman的雙前端并行體系,用更加靈活且效率更高的CU單元替代了強調吞吐但在效率層面顯得“笨重”的VLIW Core,首次引入完善的Unified Cache并大幅改進了過往架構帶有明顯缺陷的緩沖體系,進一步強化了任務管理、仲裁機制以及架構的幾何處理能力。
Tahiti所做出的一系列改進不僅明快而且目的性強烈,它扭轉了AMD“以吞吐換延遲”的錯誤GPU架構方向,補完了先前架構的種種缺失并一掃AMD傳統GPU架構笨拙且低效的痼疾,非常積極地迎合了DirectX 11對運算靈活度和效率的要求,將整個架構的運算和動作效率提升到了全新的高度,更為AMD通往通用計算等先進應用領域打下了基礎。
#p#
宿命,開普勒登場
Tahiti的革新可以說是2012年架構革新的一劑強心劑,它不僅讓我們看到了希望,更對競爭對手NVIDIA的新架構充滿了期待。與Tahiti的開放和釋放信心不同,NVIDIA接替Fermi的開普勒架構一直做足了保密工作,直到發布的一瞬間才讓整個世界為之一頓。
性能功耗比革新巨大的開普勒
開普勒圖形構架擁有超過35億的晶體管規模,核心面積294平方毫米。與上代的Fermi構架相比,其運算資源總量提升到了1536個ALU,Texture Filter Unit由Fermi的64個增加到了128個,構成后端的ROP則下降為32個。GTX680同樣擁有全新設計的MC結構,4個64bit雙通道顯存控制器組合形成了全新的256bit顯存控制單元,GTX680也因此采用了容量達2048MB的顯存體系。
完整的GK104架構
GTX680的特色由六個主要的部分組成:
1、與Tahiti同樣基于HKMG的TSMC全新28nm工藝。
2、與Fermi完全相同的4XGPC宏觀并行設計。
3、8個包含了幾何引擎、光柵化引擎以及線程仲裁管理機制的SMX單元。每個SMX單元包含一組改進型的負責出力幾何任務需求的PolyMorph Engine,192個負責處理運算任務及Pixel Shader的ALU,16個負責處理材質以及特種運算任務如卷積、快速傅里葉變換等的Texture Array,二級線程管理機制以及與它們對應的shared+unified cache等緩沖體系。
4、負責完成fillrate過程以及輸出最終畫面的32個ROP單元陣列,以及對應L2 cache的4個64bit顯存控制器MC(Memory Controller),負責視頻回放及處理的PureVideo HD單元,以及全新的負責視頻編碼部分的NVENC。
5、根據功耗以及用戶自定義負載需求實時調節GPU的GPU Boost功能,全新的TXAA以及抑制畫面撕裂和頓挫的Adaptive VSync主動垂直同步技術。
開普勒架構GK104芯片核心照片
開普勒構架與Fermi構架在宏觀層面上非常接近,其改進主要集中在微觀結構層面,它使用了全新的SMX單元來替代傳統ALU團簇結構,棄用了沿用數年的ALU分頻機制,進一步改進了包括Cache/shared以及寄存器在內的緩沖體系,調整了線程仲裁機制并引入了全新的scheduling過程,為今后的架構發展做出了鋪墊,引入了開創性的功耗性能管理機制,同時還強化了單卡多屏輸出等功能性環節。
Tahiti與開普勒在宏觀和微觀結構對比中互有異同,Tahiti可以被看做是一個不同于AMD既往產品的,對稱并行分布、core部分神似larrabee而uncore部分接近Fermi的全新結構,開普勒則可以被看做是一個4GPC并行,內部結構大幅調整優化的同時保留了之前產品優勢的作品。Tahiti架構在維持吞吐的同時轉向強調靈活性并進行了針對改進,而開普勒則在維持靈活性的前提下做出了平衡性能與功耗的努力。兩者都在向著中線,也就是最佳的性能功耗比去靠攏。
#p#
AMD的致命傷——寄存器
開普勒與Tahiti都是雙方積蓄許久之后爆發的革新之作,都應用了雙方最全面的新技術和各項突破,其中Tahiti架構的革新不僅目的性更強烈而且也應該更加行之有效,但它們在旗艦級領域的對決結局卻是出人意料的。盡管提前發布了73天,同時兼顧了大量革新且具有糾偏意義的理念和技術,但基于Tahiti的HD7900系列依舊在性能、功耗和成本等所有環節全部落敗。大核心在功耗和成本層面輸給小核心尚屬正常,但在此基礎上還在性能對決中輸給小核心,這在GPU發展史上是非常罕見的——即便是功耗和成本令人詬病的GF100,起碼也在性能和DirectX 11效率層面保住了面子。
是什么讓Tahiti對各項先進技術的整合出現了狀況并輸掉了競爭呢?這個問題對我們來說既熟悉又陌生——讓Tahiti陷入這樣境地的根本,來自其架構內部的寄存器設計,而且早在一年半以前的GCN情報分析中,我們就已經對寄存器的隱患提出了預警。
寄存器在處理器中的地位
作為最重要的緩沖單元,寄存器需要面對來自線程(Thread)和數據的緩沖需求。如果設計者缺乏寄存器的使用和管理經驗,寄存器對于每個線程的復用率較低,或者說每個線程在特定時間片段內可以占用的寄存器數量不足,要滿足大并行度Thread的性能需求就必須通過增大寄存器總量的手段來完成。在此基礎上,雙精度數據通常需要組合單精度寄存器來完成緩沖需求,因此雙精度數據對寄存器的需求量要來的更大,如果此時寄存器復用狀況不佳,要保證線程充分并行和DP運算的性能需求,唯一的做法就只有進一步加大寄存器總量一途而已了。
為方便理解,我們將寄存器數量折合成3項指標,分別是Reg per Thread(每線程寄存器數量),Reg per ALU(每ALU寄存器均攤數量)和DP Reg(雙精度寄存器)。Reg per Thread越高,架構就能以越少的寄存器總量來滿足盡可能多的線程并行處理需求,進而在等量寄存器的前提下騰出更多的空間給提升DP性能做準備。Reg per Thread越低,架構就需要以更多地寄存器總量來滿足并行處理需求。寄存器的整體需求量可以被不嚴謹但簡單的量化成Reg per ALU數值,一個架構的Reg per Thread越低,它實現更高線程并行度和DP性能所需要的Reg總量就越高,攤到每一個ALU身上的Reg per ALU數值也就越高。
包含緩沖體系的CU單元內部結構
好了,現在我們來到了問題的關鍵環節。根據AMD和NVIDIA公布的數據,Tahiti架構擁有總計8192KB的32bit Vector Reg,在不考慮Scalar Reg等其他特殊需求寄存器的前提下,其Reg per ALU為4KB,它可以實現1/4速的DP性能。而開普勒架構的Reg per ALU數量則為1.33KB,NVIDIA可以以這一數值的實現1/3速的DP性能(GK110)。另外作為參考,Fermi的這一數值為4KB per ALU/半速DP。
4KB per ALU的Tahiti和1.33KB per ALU的開普勒,這樣的數據意味著什么事呢?我們來算一筆通俗的帳——1個最基本的1bit sram單元需要6個晶體管來實現,更高的頻率以及更低的延遲會讓單元的晶體管數量進一步增加,我們并不清楚AMD和NVIDIA目前所處的頻率水平需要多少晶體管來實現1bit的寄存器,但即便忽略一切其他相關單元,單純考慮純sram部分并用最保守的6晶體管方案來計算,4KB per ALU意味著Tahiti架構每個ALU均攤的寄存器晶體管數為786432個(6*32*1024*4),而NVIDIA每個ALU均攤的寄存器所占用的晶體管數則僅為261489個(6*32*1024*1.33)。
SMX單元中的寄存器數量
對于每一個ALU及其周邊資源來說,Tahiti需要比開普勒多付出最少超過50萬個晶體管的代價,而Tahiti架構總計擁有2048個Vector ALU,換句話說,就是即便以最保守的方式來計算,AMD在Tahiti架構中為寄存器所多付出的晶體管代價也在10億以上。如果AMD進一步擴大Tahiti架構的Vector ALU規模,或者在寄存器單元中使用的是可以應對更高頻率的7晶體管甚至8晶體管方案,這一數值還將繼續擴大。
而Tahiti架構,一共只有4.3個“10億晶體管”。
Intel 45nm工藝下的6T sram單元
并未超越對手的計算特征和效率、比競爭對手高的Reg per ALU還有更大的DP衰減幅度,這些現象都反映了AMD在寄存器使用策略和算法上的存在的差距,它表明AMD無法完全解決諸如Reg pool以及rename之類許多環節的問題,所以只能以極大的寄存器總量來同時滿足Thread性能/DP性能的需求,而這種解決方案恰恰是最致命的。單純增加規模不僅低效,而且增加出來的晶體管并不會直接產生任何Flops或者圖形性能。想要提升DP性能和Thread性能,AMD必須在擴充運算單元規模的同時付出比對手更多的寄存器晶體管代價,而對寄存器的過量使用不僅造成了Tahiti架構更容易受到D線的壓迫,讓功耗控制變得更加困難,還引發了一系列多米諾骨牌效應并挫傷了其在圖形領域的表現。
#p#
多米諾骨牌
整體而言,一顆芯片在特定工藝下的規模是存在上限的,制造者不可能無限制的放大芯片的規模。而上限的存在又意味著兩個截然不同的結局,你可以用更小的規模換取更好的可制造性,或者在觸及上限時面對晶體管使用方向的平衡問題。AMD面臨的由寄存器導致的多米諾骨牌效應,就是后者作用的結果。
其實這說起來很簡單——Tahiti為寄存器付出了10億甚至更多的晶體管代價,這些晶體管讓它更快的達到了芯片規模的上限。如果沒有這層負擔,Tahiti本來可以獲得更小的芯片面積以及更好的功耗表現,或者用這些晶體管來制造更多“針對圖形”的單元來獲得更好的圖形性能。它可以被塑造成一個與開普勒架構的GK104規模相當,功耗表現比現在更加優秀的產品,或者可以用這10億晶體管來強化并行度設計,也繼續補足曲面細分性能,還能增加ALU、Tex或者MC/ROP的規模等等,對于10億個晶體管來說,有太多美好的可能可供Tahiti去選擇了。
Tahiti構架CU結構細節
但是現在,由于寄存器使用策略和算法的問題,AMD不得不背負這10億晶體管的負擔。少了這10億晶體管,以上那些美好的可能全都無法實現,Tahiti架構不得不止步于當前的規模,各項針對過去積累架構錯誤的先進技術改進都沒有進行徹底,傳統圖形領域相對強勢的后端優勢得不到發揮,而且還要因此而承受規模釋放困難,功耗難以控制等各種各樣的問題。無論技術改進和愿景多美好,沒有晶體管可用,一切都是空談。所以由寄存器引發的一個又一個不利的因素像多米諾骨牌那樣倒下,最終造就了Tahiti“什么改進和技術革新都好就是效果不好”的結局。
Tahiti架構與開普勒架構在實際游戲測試中的功耗對比
而沒有這層負擔的開普勒,則利用這份優勢強化了并行化結構、曲面細分以及各種各樣的圖形相關部分,并在突出圖形性能和運算性能平衡的同時依舊維持了比Tahiti少8億的晶體管規模。其所要經歷的事情也就非常簡單直接了——性能和效率高于Tahiti,芯片面積小于Tahiti,功耗低于Tahiti……
不光開普勒,即便是在GCN陣營內部,同樣也存在著Tahiti的對立面,那就是面向甜品級的Pitcairn架構。
#p#
甜品級首發,Pitcairn
Pitcairn構架與Tahiti以及Cape Verde同屬GCN體系,它擁有212平方毫米的尺寸和28億晶體管的總規模。定位于旗艦及中端之間的Pitcairn擁有更加合適的規模及芯片面積,同時具備了Tahiti架構的絕大多數技術革新。
基于Pitcairn架構的HD7870規格
Pitcairn擁有20組結構上同Tahiti相同的CU單元,每組CU單元擁有4個SIMD Core,每組SIMD Core包含16個Vector ALU,因此其運算資源總規模為1280個Vector ALU。除了Vector ALU之外,每組CU單元還包含4個Texture Filter Unit和16個Texture Fetch Load/Store Unit,因此Pitcairn擁有80組Texture Arroy。后端方面,Pitcairn的ROP陣列規模與Tahiti相同,均為32個,而顯存部分則由4個64bit MC進行管理,構成256bit的顯存位寬。不難看出,HD7870的規格是旗艦級的HD7970的62.5%,同時剛好是Cape Verde的整整一倍。
游戲玩家是HD7800的目標用戶
由于同屬GCN體系,Pitcairn的宏觀結構同Tahiti保持了一致,但由于雙ACE的宏觀對稱格局下轄了比Tahiti更少的運算資源,后端的比例也因此而燈下的獲得了放大,這些要素配合高頻讓Pitcairn獲得了相當不錯的架構效率和性能。在此基礎上,Pitcairn的成本控制和功耗表現較之Tahiti也有了更大的提升,無論板卡物料成本還是芯片良率,Pitcairn都具備成為AMD盈利重點的資質。以甜品級架構而言,Pitcairn的結構和性能/功能表現全面完善,是一款相當合格的架構。
削減后的開普勒,GK106
由于NVIDIA在2012年中將產品線的常規架構總量從4個變更到了3個,對抗Pitcairn也就變成了GK104和GK106共同完成的任務。基于開普勒圖形構架的GK106核心擁有221平方毫米的芯片面積。與完整規格的GK104相比,GK106運算資源總量從1536個ALU下降到了960個,Texture Filter Unit由128個減少到了80個,構成后端的ROP為原生24個。與ROP相對應的,GK106的MC結構也變成了3個64bit雙通道顯存控制器,顯存位寬192bit。GK106擁有2048/3096MB兩種顯存容量搭配方案,其中2048MB采用了非對稱顯存布局體系。
NVIDIA公布的GK106架構
GK106架構具備5組SMX單元,分別居于3個GPC中來組成并行結構。3 GPC的傳統結構讓它具備了3套前端以及光柵化處理部分,其單周期的幾何輸出以及光柵化能力為同頻旗艦級架構的75%。更好的幾何性能、更低的時間成本以及研發成本是它的優勢。GK106架構讓NVIDIA在下位甜品級以及上位中端產品區間里擁有了更好的產品可操作性,同時在面積和成本空間層面獲得了較好的平衡。
我們預期中的完整GK106架構
GK106可以被看做是削減一組GPC之后“再砍一刀”的開普勒。除了規模之外,它的各種結構細部特征均與開普勒架構保持一致。與微觀結構進行了一定調整的GCN系列架構不同,開普勒系列架構保持了高度的一致性,它們之間僅有的規模差異表現出了高度的模塊化特征,我們甚至可以從一款架構的表現以及特定的規模限定規則來推定出其他所有開普勒架構產品的大致性能。只要規則合理,開普勒系列架構的性能控制會更加容易且具有規律性。
與之相對應的,GCN架構內部的表現就要相對差一些,Pitcairn在宏觀結構上雖然保持了與Tahiti的一致,但它的微觀結構卻存在著與Tahiti架構的不同,而Pitcairn較之Tahiti更加優秀的綜合表現,正是這一不同所導致的。
#p#
為什么甜品架構更“健康”?
相對于Tahiti高達43億晶體管的規模以及365平方毫米的核心面積,僅有28億晶體管規模和212平方毫米的Pitcairn要小上很多。但Pitcairn頂級產品HD7870的絕對性能,卻并未因此而落后Tahiti的次級旗艦產品HD7950很多,它與GK104/GK106架構的NVIDIA甜品級產品在性能層面上的競爭也并未落得下風,我們完全可以講Pitcairn看做是與GK106乃至整個開普勒架構表現相當的架構,其性能功耗比更是超越了整個Tahiti架構。無論從何種角度來講,Pitcairn都要比Tahiti“健康”很多。是什么讓同屬GCN架構,采用幾乎完全相同技術的兩款架構表現出了迥異的結果呢?
答案還是萬惡的源頭——寄存器。
HD7870滿載功耗相當“正常”
Pitcairn的定位在游戲級的甜品市場,它不需要承擔旗艦級架構探索和收集經驗的負擔,只需要利用現有技術更加合理的打造產品即可。所以Pitcairn的雙精度浮點運算能力僅有單精度浮點運算能力的1/16,更低的DP性能目標讓它卸下了沉重的寄存器負擔,進而也就避免了每個ALU多50萬晶體管的窘境。
利用這部分晶體管所換來的空間,Pitcairn維持了與Tahiti接近的后端規模,這種等效放大后端/ALU比例的做法強化了Pitcairn在“純圖形”層面的表現,而更少的晶體管總量又讓Pitcairn更加遠離D線,這使它獲得了更好控制的功耗以及挑戰更高頻率的機會,規模和高頻率的交替作用進一步增加了Pitcairn的圖形以及綜合表現的得分。我們完全可以把Pitcairn看作是AMD版本的開普勒,它不僅在甜品級架構之戰中為AMD守住了陣地,更為我們展現了如果Tahiti沒有遇到問題時所可能的表現。
Pitcairn特性一覽
以GPU這種簡單單元大規模并行的邏輯結構而言,決定性能的根本要素其實就是并行度和緩沖機制。大家的ALU結構,尤其是進入到Tahiti/開普勒時代之后的ALU結構和能力基本上都是相當的,誰能為ALU提供更好的緩沖并讓其獲得更高的復用率,誰就能獲得更好的效率。Tahiti和Pitcairn同屬GCN,在結構和技術應用上基本相當,唯一造成兩者不同命運的重要誘因就是寄存器層面的差異。另外,歷史上并不是沒有出現過因為寄存器導致的悲劇,名留GPU展史冊的NV3X就結結實實的栽在了寄存器使用經驗不足上。命運在10年后的今天只是改改演員和臺詞,就把一幕內容相同的悲喜劇本拿來再一次的重演,這不能不讓我們唏噓。
#p#
最小GCN——Cape Verde
Cape Verde構架是整個GCN體系中最小的成員,它的使用了GCN架構的幾乎全部成熟技術,同時對這些技術進行了更加有效和合理的組合。它擁有123平方毫米的芯片面積,晶體管數為15億,這一規模僅為Pitcairn的一半和Tahiti的三分之一。
Cape Verde構架定位
Cape Verde擁有8~10組CU單元,合計512~640個向量ALU。由于與CU單元綁定這一特性,Cape Verde擁有了32~40個TA/TMU單元。作為一款中端顯卡,其后端由4組ROP單元組成,每組擁有4個ROP單元,合計可以在一個周期內完成16個光柵化操作。顯存控制器方面則由2個64bit MC構成128bit顯存總線,每個MC對應256K的L2 Cache,這個數值是旗艦級的HD7900系列的2倍。
Cape Verde構架
上述這些特性,讓Cape Verde擁有了Tahiti這一AMD當前旗艦級構架31%的ALU規模,50%的ROP規模,66%的L2 cache規模以及27%的顯存帶寬資源。按照AMD的說法,在1920X1080分辨率下Cape Verde的性能是優秀的,更高的分辨率和更大的AA設置會導致更多地性能下降,但作為一款中檔顯卡來說,這種下降是可以接受的。
Cape Verde的微觀結構較之Pitcairn和Tahiti有了進一步的調整,它的宏觀并行度異于其他GCN體系的架構。與Pitcairn一樣,Cape Verde同樣沒有Tahiti的寄存器晶體管壓力,所以可以有更寬裕的空間來強化其他部件,因此我們在Cape Verde上看到了更大的cache體系,這種調整為它帶來了好于Pitcairn的效率表現,并最終讓其成了性能功耗比表現最好的GCN體系架構成員。
市場化運作的GK107
相較于GK106,GK107要來得更加“單純”一些。這款118平方毫米的芯片同GK106一樣維持了開普勒高度的統一性,甚至其細分出來的GeForce GTX 650和GeForce GT 640兩款產品的核心結構都是一致的,惟一的區別僅在于使用的顯存顆粒的速度不同。
GK107架構
GK107擁有一組完整的GPC結構,內含2個SMX單元。它的實際規模是旗艦級的GK104的1/4,這種標本型的特征讓GK107有了很高的參考價值,我們可以將GK107芯片的邏輯運算部分直接看做是GK100時代開普勒架構最基本的組成部分。
GeForce GTX 650規格一覽
由于這種特性,GK107架構擁有了一套完整的前端以及光柵化處理部分,其單周期的幾何輸出以及光柵化能力為同頻GK104架構的25%,或者同頻GK106架構的三分之一。同時,與之搭配的顯存控制器陣列擴展到了2個,GK107由此具備了128bit的顯存位寬。除此之外,GK107的其他特性均可以和GK106一樣參考整個開普勒家族的傳統。
#p#
中低端的非技術戰爭
如果說旗艦級架構是技術之戰,甜品級架構是技術之戰面向市場方向的延續,那么中端和中低端架構的競爭更多地就是市場層面的戰爭了。無論GK107還是Cape Verde,它們都是市場化味道濃郁的架構。
強調特性而非絕對性能是Cape Verde的特征
中端及中低端市場并不是游戲發燒友集中的領域,這一領域的市場需求會更多地考慮性能功耗比和應用的多樣化。誰能以更低的功耗和售價來提供更豐富全面的特性,讓解決方案變得性價比十足,誰就能夠取得這一領域的勝利。至于性能,雖然同樣是不能缺少的要素,但相對于性價比和全面表現而言,它只能算是錦上添花而不是雪中送炭的存在。這些要素,都在GK107和Cape Verde身上獲得了體現。
GeForce GT640圖形核心
GeForce GTX650圖形核心
相比于GK104和Tahiti,GK107以及Cape Verde都是經過深度的規模限制。它們保留了30%左右的旗艦級架構規模,并按照各自對市場的理解進行了進一步的特性和性能控制。Cape Verde的方式是架構內部繼續限制規模并降低頻率,而GK107則使用了GDDR5和SDDR3的帶寬差異。性能并不是它們的主要追求,如何限制性能并細分市場才是它們的目標。這兩款架構的實際表現,更多地是在考驗AMD和NVIDIA對市場需求的理解、把握以及操作等運作實力,是“軟實力”的體現。
架構的對錯究竟是誰的對錯?
好的技術并沒有帶來一起向好的產品表現,這促使我們開始探尋更深層次的架構影響并尋找答案。在回顧了2012年全年的圖形架構之后,我們找到了影響Tahiti以及整個AMD架構線表現的問題所在,同時也產生了更多問題和思考——架構左右了技術的命運,那又是什么左右了架構甚至是整個業界的命運呢?
Tahiti背負了寄存器的負擔,這負擔甚至掩蓋了其諸多精彩的革新和種種努力,那是誰給了Tahiti寄存器的負擔?為什么Tahiti要去背負這樣的負擔?為什么是現在?我們為什么稱其為“AMD的致命傷”而不是“Tahiti的致命傷”?這負擔對今后的AMD圖形架構發展有什么影響?解藥又在哪里?為什么開普勒不用面對同樣的問題?
誰阻止了承諾向現實的轉變?
Pitcairn和Cape Verde比Tahiti表現的都要健康許多,在與同級別開普勒的競爭中也未表現出劣勢,但為什么Pitcairn和Cape Verde并沒有因此而熱賣,并未AMD帶來更好的市占率表現以及盈利狀況?我們提到的非技術戰爭的戰場上究竟發生了些什么呢?
開普勒架構的表現在本輪架構競爭中可以被判定為優秀,但截至到目前為止,開普勒架構產品的市場表現卻更多的集中在了旗艦和上位甜品級。中端及以下的GK106+GK107并沒有在第一時間表現出應有的爆發態勢,是什么妨礙了它們甚至整個中端及以下市場的需求?
開普勒的旗艦級產品市場反響更強烈
整個2012年的GPU架構演進雖然精彩,其中不乏各種先進技術以及性能的明顯提升,但整個圖形業界似乎并沒有受到對等的刺激并泛出波瀾。我們沒有看到更好的或者令我們眼前一亮的游戲和應用,沒有看到圖形以及DIY業界復蘇的跡象,甚至看不到平板及智能手機以外的東西,這又是為什么呢?
其實,這些問題的答案就在AMD/NVIDIA兩間公司的特征以及我們自身。這一年圖形世界中發生的一切都不是孤立存在的事件,它們是一系列綿延數年,包含了技術、理念、選擇、運作以及執行能力等等要素的,甚至是影響了整個業界前進腳步的漫長過程的結局。我們將會在下周為您帶來《顯示世界的2012終篇》,上面這些問題的答案,圖形界乃至DIY界過往的各種精彩以及未來的命運,還有我們使用兩周時間進行漫長技術和架構介紹準備的目的,都將在下周揭曉。敬請期待吧。