構建大模型,GPU是唯一生命線?未必 原創
嘉賓丨楊龔軼凡、蔡哲文
撰稿丨張潔
出品 | 51CTO技術棧(微信號:blog51cto)
OpenAI 前首席科學家伊利亞曾公開表示:“GPU 就是新時代的比特幣。”
大模型一朝起飛,算力需求激增。作為AI淘金熱里“賣鏟子的人”,英偉達也因此成為了這輪技術變革里的最大贏家。隨著AI軍備競賽的升級,即使GPU價格一路看漲,市面上也常常“一卡難求”。
一方面,GPU產能吃緊,實在無法跟上需求;另一方面,若是算力供給受制于人,那就等于將領先窗口期拱手讓人。在這一背景下,眾多廠商要么自研芯片,要么尋找替代方案,在GPU之外尋找新的算力解決之道。
那么,面對“一卡難求”的困境,到底如何破局?蘋果放棄GPU選擇TPU的背后有何玄機?國產芯片創業企業如何在巨頭壟斷的賽道上實現突圍?
本期“AIGC實戰派”邀請中昊芯英創始人&CEO楊龔軼凡,以及賽智伯樂投資合伙人蔡哲文就上述議題進行了探討。
1.GPU不會是整個AI大模型的終點
放眼當前的AI芯片市場,英偉達可以說一枝獨秀。而英偉達之所以能占據如今的生態位,在蔡哲文看來,可以說“三分天注定,七分靠打拼”。
他談到,英偉達的成功首先得益于它抓住了AI技術發展的大趨勢。正所謂“時勢造英雄”,隨著大模型崛起,生成式AI遍地開花,算力需求激增,恰好市場上又缺乏專門針對這一領域的芯片,英偉達的GPU成為了一個自然的、合適的選擇,從而占據了市場的先機。
更重要的是,英偉達在發展過程中堅持不懈地做出了種種努力。“在2006年左右,英偉達推出了CUDA系統,最初其實面臨非常大的內部阻力,畢竟它不是一個能賺錢的東西,但最終英偉達堅持了下來,堅持推廣這一系統,讓大家接受并認可以此為中心構建的生態,從而自然而然地去用它的芯片。”最終英偉達成功地培養了用戶習慣,建立了品牌忠誠度,也為它的產品創造了持續的需求。
那么英偉達是否會繼續這樣一騎絕塵下去呢?未必。
“從產品和技術角度上來說,我們不認為英偉達的GPU會是整個AI大模型的終點。”楊龔軼凡給出了這樣的判斷。
這位在人生的關鍵節點選擇了回國創業的年輕創始人直接指出:“因為這個市場過于大了,所以會讓大家對市場上的很多現象產生‘誤解’。為什么如今英偉達GPU可以形成‘壟斷’?因為還沒有專業的芯片出來,專業芯片還在設計、量產的路上,但此時整個行業應用爆發了。”
人類歷史上,半導體的整個發展歷程總是以十年為一個周期發生重大變革。每一次變革都是因為現有應用的需求超過了現有工具的能力,當這個臨界點到來,自然會催生新的技術和產品。
楊龔軼凡表示:當前AI的爆發正處于這樣一個節點,雖然初期各種應用可以利用現有芯片滿足需求,但隨著應用的深化和市場擴展,專業AI芯片的出現將不可避免地改變市場格局。
“(未來)GPU可能只占據10%到20%的市場,剩下80%的市場都是由新型的AI芯片去占據。我們希望TPU會成為80%的市場份額里面的主力軍。這是我們的愿景,也是我們為什么在國內成立中昊芯英的原因。”
2.挑戰英偉達:尋找破局的可能
當然也有人說,英偉達的顯卡未必是最適合的AI訓練工具,但它的CUDA生態,全球僅此一家。
由于CUDA的普及,大量的開發者和研究人員開始基于CUDA開發應用,形成了龐大的用戶基礎和應用生態。這種廣泛的應用基礎為英偉達GPU創造了強大的生態壁壘,使得其他競爭對手難以企及。但是隨著技術的發展和市場需求的變化,CUDA的局限性也逐漸暴露,一些初創公司和團隊正在嘗試擺脫CUDA,尋求開發更高效、更適應特定需求的解決方案。
楊龔軼凡認為,任何行業包括人工智能行業在內,一般都可以分成兩個階段:在研發階段,迭代速度是關鍵,因此開發者傾向于使用更熟悉的工具,這些工具的性價比是否是最優的反而不是主要考量因素;在產品化和商業運營階段,尤其是大規模部署往往導致成本的敏感性增加,此時性價比往往會成為關鍵要素。這也是為什么 CUDA 生態雖然成熟,但到了產業化階段,就會顯現出其在性價比方面的劣勢。
“因為所有通用的東西,它都是以損失絕對性能作為代價的。”楊龔軼凡強調,CUDA作為一個通用的軟件棧,雖然提供了廣泛的支持,但這種通用性是以犧牲一定性能為代價的。在特定應用場景下,這種性能損耗可能導致性價比不高,進而促使行業去尋求更定制化、更優化的軟件棧。
另外值得關注的一點是,英偉達不僅是GPU制造商,也是大模型的重要構建者。遺憾的是,盡管英偉達在大模型領域投入巨大,但其GPU架構和CUDA軟件棧可能無法滿足未來技術演進對計算性能、成本效益和網絡互聯的更高要求。
楊龔軼凡指出,對于一個科技公司尤其是芯片公司而言,“它沒有任何可能性更改自己的核心構架,完全去革自己的命”。因為這涉及到從零開始重新設計和開發,這是一個漫長且復雜的過程,相應的,建構在此之上的軟件棧同樣也要從頭開始。換言之,無論是芯片還是軟件棧,后續迭代都是基于前一代產品的實驗結果和真實場景。
某種程度上,“GPU最大的優勢可能就是CUDA,但它的最大的劣勢也是CUDA”。
“因為CUDA軟件棧限制了它。如果將來我決定不再使用GPU,轉而采用TPU、LPU等其他更適合執行深度學習任務的硬件架構,這種慣性依賴就會變成它的限制條件。盡管GPU可以通過優化提高性能,但它存在一個理論上的天花板。相比之下,專門為AI設計的芯片如TPU,其性能上限可能遠高于GPU。隨著大模型的應用落地規模化產業化,更有效的AI芯片如TPU可能就會迎來爆發,因為它們能提供更高的性能和更低的成本。”
蔡哲文對此也表達了認同。在他看來,終有一天 GPU也會變得不那么合時宜,正如當年GPU取代了CPU在圖形處理方面的功能一樣,現在出現了專門為AI設計的芯片,這些專用芯片在處理AI任務時比GPU更加高效。只要未來整個 AI 應用的場景持續不斷迭代,整個市場變得足夠大,專用芯片逐漸取代GPU在AI領域的主導地位也是一個必然的趨勢。
此外,蔡哲文還提到一點:GPU雖然在并行處理方面表現出色,但其能耗相對較高。隨著對能效比要求的提升,高能耗可能會成為GPU在AI領域的一個劣勢,尤其是在大規模計算任務中。不同地區在電力供應和新能源技術方面的差異可能會影響AI硬件的選擇。如果GPU的高能耗成為限制因素,而專用AI芯片能提供更低的能耗和更高的性能,它們可能會成為更受歡迎的選擇。
3.TPU 啟示錄:谷歌往事 & 蘋果的選擇
隨著歷史的車輪滾滾向前,GPU 可能不再有今日的地位,但是當下GPU 依舊主導了當前這個 AI 時代的硬件供應,而就在這樣強勢的包圍下,谷歌 TPU 依舊穿越了重重考驗,在時間的歷練中成長為一個真正富有競爭力的對手。
2016年5月,谷歌在I/O大會上首次公布了TPU,并且稱這款芯片已經在谷歌數據中心使用了一年之久,李世石大戰 AlphaGo 時,谷歌直接將 TPU 稱之為 AlphaGo 擊敗李世石的“秘密武器”。那么在已有 GPU 的前提下,谷歌為何執意要開發TPU呢?
楊龔軼凡提到,谷歌開發TPU的過程實際是一個“無心插柳柳成蔭”的故事。TPU的產生并非谷歌高層直接規劃的結果,而是內部團隊自發探索、逐步驗證、進而抓住時代契機實現商業化的過程。
最初,它誕生于一個內部創業項目。因為谷歌內部的創業環境允許團隊進行自主探索和創新,TPU正是這種機制下的產物。不過鑒于軟件項目的增長潛力、變現速度遠大于硬件,所以 TPU 本身價值是不符合創始人愿景的,它需要驗證其在特定領域的發展潛力。
于是, TPU 流轉于谷歌內部不同部門之間,在不同的應用場景下接受考驗。幸運的是,通過不斷地試用和迭代,TPU逐漸展現出其在模型訓練和推理中的效率和成本優勢。特別是在谷歌廣告部門使用后,推薦系統的精準度有所提升,這直接關聯到營收增長,證明了TPU的商業價值。
這也為谷歌繼續投入資源進行TPU的研發和迭代提供了動力。最終,隨著AI技術的發展和大模型的崛起,TPU成為了谷歌在AI領域的一個重要競爭力。
不過在很長一段時間內,TPU 還是在 GPU 的暗影下低調發展。直到最近,蘋果公布Apple Intelligence的細節,才再次讓 TPU 走到臺前,接受聚光燈的洗禮。根據相關論文的披露,蘋果并沒有采用常見的英偉達 H100 等 GPU,而是選了谷歌的 TPU,訓練 Apple Intelligence 的基礎模型,一時引起了諸多討論。
對此,楊龔軼凡表示,起初TPU是谷歌自家使用的技術,并未開放供外部使用,但其開源文化昭示著它終會將TPU集群作為云服務的一部分對外開放,以推動整個行業的發展。而蘋果是除了谷歌之外第一個使用 TPU 進行大模型訓練的大型玩家。
“從技術角度來說的話,它主要的商業驅動力還是性價比。”楊龔軼凡介紹,TPU在相同制程、工藝和能耗條件下,由于其架構的特殊性,在深度學習和大模型領域具有更高的芯片利用率,通常可以實現3到5倍的性能提升,且在相同算力下成本可降低50%。而在商業化應用中,成本節約變得至關重要,這時TPU的高性價比就成為了關鍵優勢。因此隨著行業發展,像TPU這樣的專用芯片很可能會成為主流算力平臺。
蔡哲文則從行業角度對蘋果的這一選擇進行了分析。在他看來蘋果轉向TPU主要有四個原因:
一是市場驅動,隨著人工智能的發展,市場需要性價比更高且易于復制的技術;二是技術演進,最初人工智能缺乏專用芯片,GPU作為一種權宜之計被廣泛應用。但現在隨著需求激增,需要更具成本效益的芯片。三是市場競爭規律,英偉達目前占據主導地位,但這也激發了競爭對手開發針對AI優化的新芯片來挑戰其地位。尤其對于中小型新興企業而言,涉足TPU領域是個好機會;四是天然匹配度,TPU源自谷歌,在與谷歌的大模型框架的兼容性和商業匹配上具有天然優勢。總體來說,蘋果的選擇既是偶然也是必然。
本文轉載自??51CTO技術棧??,作者: 張潔
