谷歌發布TPU 3.0,“液冷”降溫不得不“行”
今年的谷歌I/O開發者大會,AI一如既往仍是核心主題,CEO Sundar Pichai表示谷歌有責任在這個信息爆炸、技術不斷革新的時代里擔負起推動科技創新的使命,而AI就是其中一種途徑。作為能給谷歌AI產品提供強大計算服務支持的“幕后英雄“——TPU,今年已升級至3.0版,并在本次大會上閃亮登場。
TPU作為一種專為機器學習設計的芯片,從2016年***代助AlphaGo成功打敗李世石開始,就注定會成為萬眾矚目的科技界“大佬“,擁有不平凡的一生。2017年TPU順勢升級至第二代,TPU2.0單個浮點運算能力高達180teraflops,主要采用云服務Cloud TPU的形式對外賦能。但谷歌似乎覺得這個速度還未達到一個”大佬“應有的水準,直接使用新的高速網絡將64個TPU組合成究極進化版——“TPU Pod”機器學習超級計算機,浮點運算能力飆升至11.5 petaflops。一個簡單對比,谷歌在其2017年發布的TPU技術細節論文中提到,雖然應用范圍受限,但TPU的平均處理速度比當前的GPU或CPU快15~30倍,性能功耗比高出約30~80倍(TPU:我不是針對誰,我是說在座的各位都……)。到如今TPU3.0發布,谷歌宣稱TPU3.0 pod的功率是TPU2.0 pod的8倍,每個TPU3.0 pod可提供超過 100 petaflops的運算能力,但在系統接口和行為方面,TPU3.0盡可能保留了第二代的特征,對于其它GPU和CPU巨頭來說,3.0的提升不大可謂讓他們送了一口氣。
雖然此次的TPU升級算不上改頭換面,甚至稱為TPU2.5的發布更為合適,但我們仍需要高亮其中的一個細節,那就是TPU3.0讓谷歌不得不也***次在其數據中心中使用液冷技術。液冷技術并不是一個全新的概念,它在衛星、火箭發動機等航天領域也已有很長的運用歷史,在IT基礎設施領域國內外眾多廠商也有很多較為成功的實踐。總體來說,市場上對于液冷技術的研究和實驗源于這項技術可以大大降低能耗、減少數據中心的支出成本,像谷歌這樣坦誠其芯片的運行溫度過高而不得不使用液冷技術的情況其實并不常見。
通過對比TPU2.0 pod(左)和 TPU3.0 pod(右)的機架可以發現,3.0機架的TPU數目是原來的兩倍,而且機架的computing unit (板卡)間距大大減少。谷歌曾稱部署TPU2.0的數據中心溫度約在 80°F (26.6666℃)到 95°F(30℃) 之間,因此必須使用高效龐大的風冷散熱器才能達到降溫目的,可以想見,當升級至TPU3.0,部署密度大幅提升的情況下,還想獲得較好的降溫效果也確實只能直接借助液冷手段。此外,谷歌采用的是開放式機架,并沒有形成封閉的盡量小的風循環機架環境,這樣一來使用風冷散熱對抗如此高密度的熱插槽的成本其實非常高昂。
谷歌將數據中心降溫方式向液冷方向轉變,這不得不行的一步或許是受TPU3.0高密度規格的形勢所迫,但從成本節約的角度來看,這也未嘗不是一種更好的選擇。而液冷技術本身的研究和革新似乎也會被加速推進,畢竟當它作為不可替代的角色被推到舞臺中間時,不行也得行。
總體來看,一方面,數據中心的各種成本越來越高,另外一方面,業界能夠實現的計算密度越高越高。如何在單位體積內部署更多的計算能力是擺在我們面前的很現實的問題,也許液冷將會使這個問題得到很好的解答。
ODCC將在液冷方面開展更多的工作,敬請期待。