五年經驗的前端社招被問:CPU 和 GPU 有什么區別?
?CPU 和 GPU 的設計目標和整體架構的區別分析,并在全文最后使用通俗的例子做比喻幫助理解。
首先來看 CPU 和 GPU 的百科解釋:
CPU(Central ProcessingUnit,中央處理器):功能主要是解釋計算機指令以及處理計算機軟件中的數據。
圖 1-1 CPU 示意圖
GPU(Graphics ProcessingUnit,圖形處理器;又稱顯示核心、顯卡、視覺處理器、顯示芯片或繪圖芯片):GPU 不同于傳統的 CPU,如Intel i5 或 i7 處理器,其內核數量較少,專為通用計算而設計。相反,GPU是一種特殊類型的處理器,具有數百或數千個內核,經過優化,可并行運行大量計算。雖然 GPU 在游戲中以 3D 渲染而聞名,但它們對運行分析、深度學習和機器學習算法尤其有用。GPU 允許某些計算比傳統 CPU 上運行相同的計算速度快 10 倍至 100 倍。
圖 1- 2 GeForce 6600GT(NV43)GPU 圖片
CPU 和 GPU 之所以大不相同,是由于其設計目標的不同,它們分別針對了兩種不同的應用場景:
CPU 需要很強的通用性來處理各種不同的數據類型,同時又要邏輯判斷又會引入大量的分支跳轉和中斷的處理。這些都使得 CPU 的內部結構異常復雜
而 GPU 面對的則是類型高度統一的、相互無依賴的大規模數據和不需要被打斷的純凈的計算環境
于是 CPU 和 GPU 就呈現出非常不同的架構(如下圖 1-3 所示,圖片來源 Nvidia),其中 GPU 部分的綠色是計算單元(ALU),橙紅色是存儲單元(Cache),橙黃色是控制單元(Control),DRAM 代表內存:
圖 1-3 CPU 和 GPU 的架構
由上圖 1-3 可以看出:GPU 采用了數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯并省去了 Cache。而 CPU 不僅被 Cache 占據了大量空間,而且還有有復雜的控制邏輯和諸多優化電路,相比之下計算能力只是 CPU 很小的一部分。
由此我們引出 CPU 和 GPU 的設計目標:
1)CPU 是基于低延遲(Low Latency)的設計,內核數量較少
Powerful ALU(強大的算術運算單元):它可以在很少的時鐘周期內完成算術計算;
Large Caches(大的緩存):將部分數據保存在緩存中,使得長延遲的內存訪問轉換稱短延遲的緩存訪問;
Sophisticated Control(復雜的邏輯控制單元):當程序含有多個分支的時候,它通過提供分支預測的能力來降低分支延時;并且,當一些指令依賴前面的指令結果時,它通過提供盡可能快的數據轉發的能力來減少數據延遲。
2)GPU 是基于大吞吐量(Big Throughput)的設計,內核數量較多
Small Caches(小的緩存):GPU 中緩存的目的不是保存后面需要訪問的數據的,這點和 CPU 不同,而是為 Thread 提供服務的。如果有很多線程需要訪問同一個相同的數據,緩存會合并這些訪問,然后再去訪問內存。但是由于需要訪問內存,自然會帶來延時的問題;
批量讀取/訪問,一個非常常見的提升吞吐量的設計,比如 Kafka 中就用到了類似思想
Simple Control(簡單的邏輯控制單元):把多個的訪問合并成少的訪問;
Energy efficient ALUs(大量的算術運算單元):如上所述,GPU 雖然有內存延時,卻有非常多的 ALU 并支持非常多的 Thread,因此,可以充分利用 ALU 盡可能多地分配線程從而達到非常大的吞吐量。
總結來說,作為強大的執行引擎,CPU 將它數量相對較少的內核集中用于處理單個任務,并快速將其完成。這使它尤其適合用于處理邏輯控制、串行計算、數據庫運行等類型的工作。
相比之下,GPU 由數百個內核組成,可以同時處理數千個線程,所以與 CPU 擅長、串行的運算和通用類型數據運算不同,GPU 擅長的是大規模并發計算,將復雜的問題分解成數千或數百萬個獨立的任務,并一次性解決它們,比如圖像處理任務,包括紋理、燈光和形狀渲染等子任務都必須同時完成,以保持圖像在屏幕上快速呈現,除此之外,GPU 還被大量應用于深度學習、密碼破解等任務中。
表 1.1 CPU 和 GPU 的區別
CPU | GPU |
Several cores | Many cores |
Low latency | High throughput |
Good for serial processing | Good for parallel processing |
Can do a handful of operations at once | Can do thousands of operations at once |
下面用一個通俗的例子來做個比喻:
注意只是比喻,可能不會太恰當,主要是幫助理解
假設我們需要做一道雞兔同籠的小學奧數題(來源 1500 年前的《孫子算經》):
- 今有雉兔同籠,上有三十五頭,下有九十四足,問雉兔各幾何?
計算題目,理解題目并且整理出解題的步驟以及解法,這是 CPU 干的事情,于是 CPU 給出了類似下面的二元一次方程:
解題的過程需要用到的眾多計算,則需要一幫不需要很高邏輯理解力的計算者完成,他們只需要負責其中很簡單但是數量又很大的簡單運算就行了,最后他們把各自運算的結果交出來給 CPU 整理,那么這群計算者就是 GPU。
簡單來說就是:
- CPU 力氣大啥事都能干,還要協調手下各類小弟;
- GPU 就是 CPU 的其中一個小弟,老大分配給給他處理圖形或者并行計算等任務,這方面處理簡單,但是量大,老大雖然能處理,可是精力有限(指 CPU 內核數量較少),所以不如交給小弟處理了,小弟精力旺盛(指 GPU 擁有大量內核),而且專門干這行,非常有經驗,干起活兒來賊快。