GPU壟斷AI讓人擔憂 是時候讓CPU發揚光大
是時候讓不起眼的 CPU 再次攻克 AI 了。
這是一小群 AI 研究人員得出的結論,但他們的聲音越來越大。
人工智能公司Hugging Face的首席布道者Julien Simon最近通過英特爾的Q8-Chat展示了CPU 尚未開發的潛力,這是一種大型語言模型 (LLM),能夠在具有 32 個內核的單個英特爾至強處理器上運行。
該演示提供了一個類似于OpenAI 的 ChatGPT 的聊天界面,并以驚人的速度響應查詢(根據個人經驗)讓ChatGPT吃盡苦頭。
AI 開發中 GPU 的使用如此普遍,以至于很難想象另一種結果,但這并非不可避免。幾個特定事件幫助 GPU 硬件戰勝了 CPU,并且在許多情況下戰勝了專用 AI 加速器。
“解鎖 GPU 的大規模并行架構來訓練深度神經網絡是使深度學習成為可能的關鍵因素之一,”Simon說。
“然后 GPU 迅速集成到TensorFlow和PyTorch等開源框架中,使它們易于使用,而無需編寫復雜的低級 CUDA 代碼?!?/p>
計算統一設備架構(CUDA) 是 Nvidia 在 2007 年推出的應用程序編程接口 (API),作為其挑戰 CPU 主導地位計劃的一部分。
它在 2010 年代中期建立,為 TensorFlow 和 PyTorch 提供了一條清晰的途徑來利用Nvidia硬件的力量。
Hugging Face 作為 AI 社區的中心樞紐(除其他外)提供與 TensorFlow 和 PyTorch 兼容的開源 Transformers 庫,也在 CUDA 的發展中發揮了作用。
然而,Simon認為“壟斷從來都不是一件好事”。GPU 的主導地位可能會加劇供應鏈問題并導致成本上升,英偉達2023 年第一季度財務業績的井噴凸顯了這種可能性,在人工智能需求的推動下,收益增長了 28%。
“在 AWS 或 Azure 上獲得 [Nvidia] A100 幾乎是不可能的。
那么,然后呢?Simon問。
“出于所有這些原因,我們需要一個替代方案,如果您愿意做功課并使用適當的工具,英特爾CPU 在許多推理場景中都能很好地工作。”
CPU 的無處不在為 GPU 的主導地位提供了一個變通辦法。
PC 組件市場研究公司Mercury Research最近的一份報告發現,僅 2022 年一年,x86 處理器的出貨量就達到了 3.74 億個。
ARM 處理器更為常見,到 2022 年第三季度,芯片出貨量超過 2500 億顆。
AI 開發人員在很大程度上忽略了這一未開發潛力池,他們認為 CPU 相對缺乏并行處理能力將不適合深度學習,因為深度學習通常依賴于并行執行的大量矩陣乘法。
在 OpenAI 的GPT-3(1750 億個參數)和 DeepMind 的Chinchilla(700 億個參數)等模型的成功推動下,AI 模型規模的快速增長加劇了這個問題。
ThirdAI的首席執行官兼創始人Shrivastava Anshumali說:“對于模型和數據集的大小,即使有共同進化的軟件和硬件生態系統,我們正處于基本的密集矩陣乘法變得令人望而卻步的地步?!?/p>
它不一定是那樣的。ThirdAI 的研究發現,現有 LLM 中“超過 99%”的操作返回零。
ThirdAI 部署了一種哈希技術來減少這些不必要的操作?!盎谏⒘械乃惴ㄏ嗽跓o關緊要的零上浪費任何周期和能量的需要,”Anshumali 說。
他的公司最近通過 Pocket-LLM 展示了其技術的潛力, Pocket-LLM 是一款適用于 Windows 和 Mac 的人工智能輔助文檔管理應用程序,可以在大多數現代筆記本電腦的 CPU 上輕松運行。
ThirdAI 還提供Bolt Engine,這是一種用于在消費級 CPU 上訓練深度學習模型的 Python API。
Hugging Face 的 Q8-Chat 采取了不同的策略,通過一種稱為量化的模型壓縮技術實現了其結果,該技術將 16 位浮點參數替換為 8 位整數。這些不太精確但更容易執行并且需要更少的內存。
英特爾使用了一種特定的量化技術SmoothQuant,將 Meta 的LLaMA和 OPT等幾種常見 LLM 的大小減少了一半。
公開的 Q8-Chat 演示基于MPT-7B,這是來自 MosaicML 的開源 LLM,具有 70 億個參數。
英特爾繼續為其即將推出的Sapphire Rapids 處理器開發 AI 優化,這些處理器用于 Q8-Chat 演示。
該公司最近為 Sapphire Rapids 提交的 MLPerf 3.0 結果顯示,該處理器在離線場景下的推理性能提升是上一代 Ice Lake 的五倍以上。
同樣,服務器場景的性能提升也是Ice Lake的十倍。
與之前提交的 Sapphire Rapids 相比,英特爾還展示了高達 40% 的改進,這是通過軟件和“特定于工作負載的優化”實現的提升。
這并不是說 CPU 現在將在所有 AI 任務中取代 GPU。Simon 認為“總的來說,較小的 LLM 總是更可取”,但他承認“沒有一種瑞士軍刀模型適用于所有用例和所有行業?!?/p>
盡管如此,該階段看起來仍會增加 CPU 相關性。Anshumali 特別看好這種潛在的轉機,認為需要經過調整以處理特定任務的小型“領域專業 LLM”。
Simon 和 Anshumali 都表示,這些較小的 LLM 不僅效率高,而且在隱私、信任和安全方面也有好處,因為它們消除了依賴第三方控制的大型通用模型的需要。
Anshumali 說:“我們正在構建能力,將 CPU 的每個核心都發揮出來,為大眾提供更好的 AI。” “我們可以用 CPU 使人工智能民主化。”