首席分析師揭秘爆火Groq,每小時要燒168美元!10倍H100擁有成本,老黃笑而不語
最近爆火的AI初創公司Groq,推出了比目前常見GPU推理系統快4倍,成本低70%的大模型推理解決方案。
他們提供的運行Mistral Mixtral 8x7b的API演示,讓大部分習慣了其他LLM「娓娓道來」的用戶直呼,簡直是魔法!
Groq在處理單個數據序列方面展現出了驚人的性能優勢,這可能使得「思維鏈」等技術在現實世界中變得更加實用。
雖然Groq有如此之多的好處,但評估某款硬件是否真的具有革命性的核心標準是性能與總成本的比值。
為此,SemiAnalysis首席分析師Dylan Patel和分析師Daniel Nishball寫了一篇萬字長文,對Groq進行了深度地剖析。
「推理速度打破紀錄,但代價是什么呢?」
現在沒有人會懷疑AI時代已經到來,重要的是要認識到,AI驅動軟件的成本結構與傳統軟件有非常大的不同。
在開發和擴展AI軟件規模的過程中,芯片微架構和系統架構起著關鍵作用。
與之前的軟件代相比,AI軟件運行的硬件基礎設施(Infra)對資本支出(Capex)和運營支出(Opex)以及隨后的毛利潤有更大的影響。
因此,優化AI基礎設施,讓AI軟件的規模化部署成本控制在合理范圍內變得尤為重要。
在基礎設施方面具有優勢的公司,也將在部署和擴展AI應用方面具有很大優勢。
谷歌在基礎設施方面的領先地位,是為什么Gemini 1.5對谷歌來說提供服務的成本比OpenAI GPT-4-Turbo更低,同時在許多任務,特別是長序列代碼生成方面表現更好的原因。
谷歌使用更多的芯片來進行單個推理任務,但他們實現了更好的性能與總成本比。
于是,在這樣的大背景下,性能不僅僅以為單個用戶生成的原始Token的速率為唯一的指標,比如延遲優化。
在評估總成本時,必須考慮硬件同時服務的用戶數量。
這就是為什么提高用于大語言模型推理的邊緣硬件的性能吸引力沒有那么強的主要原因。
大多數邊緣系統因為不能在大量用戶中攤銷增加的硬件成本,而無法彌補運行大語言模型所需的增加硬件成本。
對于同時服務許多用戶且批處理大小極大的情況,即吞吐量和成本優化,GPU是首選。
許多公司在其Mistral API推理服務上實際上是在虧損。
一些公司還設定了非常低的速率限制以減少經濟上的損失。
但是只要提供未量化過的模型(FP16)需要至少64+的批大小才能盈利。
因此,Mistral、Together和Fireworks在提供Mistral服務時基本都處于收支平衡到略有利潤的臨界點上。
但對于其他提供Mixtral API的公司而言,情況并非如此。
他們要么在關于模型簡化(量化)的聲明上沒有明確說清楚,要么正通過消耗風投資金來吸引客戶群。
也就是說,基本上提供大模型服務的公司成本都是一個很嚴峻的問題。
而Groq則采取了一種大膽策略,將每百萬Token的價格定為僅0.27美元,直接打起了價格戰。
這樣的低價是否是基于性能/總擁有成本(TCO)的考量,正如Together和Fireworks所做的那樣?
還是說,這是一種通過補貼來刺激市場熱度的策略?
值得注意的是,Groq最近一次融資是在2021年,去年還進行了一輪5000萬美元的安全可轉換債務(SAFE)融資,目前他們正在進行新一輪的籌資活動。
現在就來深入探討Groq的芯片、系統和成本分析,來看看他們是如何將大模型的推理成本打下來的。
Groq構架解密
Groq的芯片采用了一種無緩沖、完全確定性的超長指令字(VLIW)架構,芯片面積約為725平方毫米,采用Global Foundries的14納米制程技術。
芯片不依賴外部內存,其權重、鍵值緩存(KVCache)和激活函數等數據在處理期間全部存儲在芯片內。
由于每塊芯片只配備了230MB的靜態隨機存取存儲器(SRAM),沒有任何復雜的模型能夠僅通過單個芯片運行。
因此,為了容納整個模型,必須使用多個芯片并將它們互聯。
對于Mixtral模型,Groq需要使用包含576塊芯片的大規模服務器集群來支持其運行,這涉及到8個機架,每個機架裝有9臺服務器,每臺服務器則裝有8塊芯片。
和英偉達H100的成本對比
而英偉達只需使用一到兩塊H100芯片,就能根據需要處理的數據量大小,輕松適配同一模型。
Groq制造芯片所需的晶圓成本相對較低,可能不超過每晶圓6000美元。
相比之下,英偉達的H100芯片采用TSMC定制的5nm工藝生產,每晶圓成本約為16000美元。
但是,英偉達通過在大部分H100芯片上禁用約15%的部分來提高良品率,這種方法對Groq來說不太適用。
英偉達還需要為每顆H100芯片支付大約1150美元,以從SK Hynix購買80GB的高帶寬存儲器(HBM),并且還要承擔TSMC的芯片封裝技術(CoWoS)相關費用和可能的良品率損失。
相比之下,Groq的芯片不需要外部存儲器,因此原材料成本要低得多。
作為一家初創公司,Groq在生產芯片時面臨的固定成本相對較高,這還包括支付給Marvell的高額定制ASIC服務費用。
下表展示了三種不同的部署情況:一種是Groq的,預計下周將在生產中采用批大小為3的流水線并行處理;另外兩種則分別針對英偉達H100芯片的延遲優化和吞吐量優化部署方案,展示了使用推測性解碼技術的配置。
上述分析極大地簡化了成本計算(同時沒有考慮稍后要深入討論的大量系統級成本,也未考慮英偉達的巨額利潤)。
核心觀點是,比起進行了延遲優化的英偉達系統,Groq在每輸出一個Token所需的硅材料成本方面,由于其芯片架構的優勢,表現得更為經濟。
8塊A100芯片可以支持Mixtral模型,達到每個用戶每秒大約220個Token的處理速度,而8塊H100芯片在不使用推測性解碼的情況下,可以達到每個用戶每秒大約280個Token。
通過采用推測性解碼,8塊H100芯片組成的推理單元可以實現接近每個用戶每秒420個Token的處理速度。
盡管理論上吞吐量可以更高,但在MoE模型上應用推測性解碼存在挑戰。
目前,由于成本效益極差,還沒有針對延遲進行優化的API服務。
API提供商目前看不到通過收取高達10倍費用以降低延遲的市場需求。
隨著代理和其他要求極低延遲的任務變得越來越受歡迎,基于GPU的API供應商可能會推出延遲優化而設計的API,以補充他們現有的為吞吐量優化的API。
即便采用了推測性解碼,針對延遲進行優化的英偉達系統在吞吐量和成本上仍然遠遠落后于即將實施批處理系統的Groq。
此外,Groq正在使用較舊的14nm工藝技術,并向Marvell支付了高額芯片利潤。
如果Groq獲得更多資金,并能夠在2025年下半年前增加他們下一代4nm芯片的生產,經濟效益可能會發生顯著變化。
英偉達的后手
值得注意的是,英偉達并非沒有應對策略,預計他將在不到一個月的時間內宣布他們的下一代B100芯片。
在吞吐量優化的系統中,經濟效益發生了顯著變化。
英偉達系統在成本效益上實現了數量級的提升,盡管每用戶的處理速度較低。在吞吐量優化的場景中,Groq在架構上完全無法競爭。
然而,上述的簡化分析并不適用于那些購買和部署系統的用戶,因為這種分析忽略了系統成本、利潤、能耗等多個重要因素。
因此,提出了一個基于性能/總擁有成本的分析。
在考慮了這些因素之后,再來計算每個token的成本情況就完全不一樣了。
在英偉達方面,將使用下文展示的GPU云成本來進行分析。
英偉達GPU主板有很高的利潤率。
此外,服務器的售價高達35萬美元,這個價格遠超過了大型云服務商對H100服務器的采購成本,其中還包括了高昂的內存成本、8個InfiniBand網絡接口卡,總帶寬達到3.2Tbps(實際上這對于該推理應用并不必要),以及在英偉達利潤之上的額外OEM利潤。
對于Groq,在估算系統成本時,考慮到了芯片、封裝、網絡、CPU、內存等方面的細節,并假設了一個較低的整體制造商利潤。
沒有計入Groq出售硬件時的利潤,因此雖然看似是不同的比較基準,但實際上這是一個公平的比較,因為Groq和推理API供應商提供的是相同的產品/模型。
值得一提的是,8個英偉達GPU只需要配備2個CPU,而Groq的系統則配備了144個CPU和144TB的RAM,規模顯著不同。
把這些組件的成本加在一起后可以發現,每臺Groq LPU服務器的成本為3.5萬美元,包括8個Groq LPU和所有上述的硬件。
Mixtral Groq推理部署采用了8個機架,每個機架有9臺服務器,總成本為252萬美元,整個部署共有576個LPU芯片。
相比之下,一個標準的H100 HGX系統的初始投資成本為35萬美元,包含了8個H100芯片。而大多數基于H100的Mixtral推理實例,只需要用到其中的2個H100芯片。
假設資本回報率為18%并且預計使用壽命為5年,H100系統的平均成本為8888美元/月,再加上2586美元/月的托管費用,整體的擁有成本達到了11474美元。
相比之下,更大規模的Groq系統的總擁有成本,高達每月12.24萬美元。
在針對延遲優化的配置下,8塊H100服務器的部署成本為每百萬Token 5.2美元,而針對吞吐量優化的2個H100服務器的部署僅需0.57美元。
與之相對,Groq的解決方案每百萬Token的成本為1.94美元,比8個H100的配置更經濟,也更高效。
和許多提供推理服務的公司一樣,Groq目前的運營模式尚未實現盈利。
而想要達到收支平衡,Groq需要將其處理速度提高超過7倍。
這一目標比基于8個H100服務器的延遲優化配置要容易得多——在相同定價下要實現盈虧平衡,效率需要提高近20倍。
Groq的商業模式,不僅是提供推理API服務,還包括直接銷售硬件系統。
如果Groq以60%的利潤率向第三方運營商出售,那么總成本將與英偉達的H100 HGX相當,預計售價為大約635萬美元。
盡管Groq宣稱其系統在能耗上具有優勢,但從現有數據來看,這一點尚不明顯。
即使在對H100服務器的極端假設下,包括CPU和所有8個NIC全速運行也只需10千瓦電力,這比Groq的576芯片服務器所需的230千瓦(每8芯片服務器約3.2千瓦)要高效得多。
Groq聲稱自己在每瓦性能上具有優勢,但根據現有的信息很難驗證這一點。
需要注意的是,盡管Groq在API業務上目前面臨虧損,并且需要通過超過7.2倍的性能提升才能實現盈虧平衡,但他們已經規劃了在未來幾個季度通過一系列改進達成這一目標。
這些改進主要通過以下三個方向:
- 持續進行編譯器的優化工作,以提升數據處理速度;
- 推出新的服務器設計,大幅減少除了芯片外的其他成本,如減少使用的CPU數量和內存大小;
- 部署更大規模的系統,通過增加處理流水線數量實現更高的數據批處理能力,這不僅可以提升性能,還能支持更大的AI模型。
雖然每項改進措施本身看似合理,但要實現7倍的性能提升無疑是一項巨大的挑戰。
挑戰
目前,最大的模型參數在1到2萬億之間。不過,谷歌和OpenAI很可能會推出超過10萬億參數的模型。同時,Llama 3和更大規模的Mistral模型也即將推出。
而這將需要配備數百個GPU和數十TB內存的強大推理系統。
目前,Groq已經證明他們有能力構建適用于處理不超過1000億參數模型的系統,并且計劃在兩年內部署100萬塊芯片。
挑戰一:處理極長的上下文信息
谷歌的Gemini 1.5 Pro可以處理高達1000萬token的上下文,這相當于可以處理10小時的視頻、110小時的音頻、30萬行代碼或700萬字的內容。
分析師預計,很多公司和服務商很快就會跟進對長上下文的支持,以便更好地管理和應用龐大的代碼庫和文檔庫,從而進一步取代在實際應用中表現不佳的RAG模型。
盡管谷歌的處理方式并非傳統的注意力機制,后者的處理復雜度是O(n^2),但Gemini 1.5 Pro仍需數百GB甚至TB級別的內存來存儲鍵值緩存(KVCache)。
相比之下,Groq在面對長上下文需求時,需要構建的是由數萬芯片組成的系統,而不是谷歌、英偉達和AMD等使用的幾十或幾百芯片。
可以預見,GPU在四年后依然能夠憑借出色的靈活性處理新的模型。但對于缺少動態隨機存取內存(DRAM)的Groq來說,隨著模型規模的不斷增大,這可能會縮短系統的折舊壽命,從而大幅增加成本。
挑戰二:推測性解碼等技術的快速發展
樹狀/分支推測方法,已經使得推測性解碼的速度提升了約3倍。
如果進一步在生產級系統上高效部署的話,那么8塊H100的處理速度就可以達到每秒600個Token,而這將直接讓Groq在速度上的優勢不復存在。
通常,推測性解碼需要通過犧牲浮點運算性能(FLOPS),來換取更高的批處理大小帶來的帶寬效率。此時,Groq主要受到FLOPS和網絡的限制,而非靜態隨機存取內存(SRAM)的帶寬。
挑戰三:英偉達更強的GPU即將發貨
與此同時,英偉達顯然也不會站著挨打。
就在下個月,性能/總擁有成本(TCO)據傳是H100兩倍以上的B100就會發布,并在下半年開始發貨。與此同時,英偉達還在迅速推進B200和X/R100的研發。
盡管如此,如果Groq能夠有效擴展到數千芯片的系統,那么流水線的數量就可以得到大幅增加,而每個管線階段的額外靜態隨機存取內存(SRAM)也將為更多的鍵值緩存提供空間,從而實現大于10的大批處理大小,并可能大幅降低成本。
分析師認為,這的確是一個有潛力的方向,但實現的可能性不大。
最后,還有一個更為關鍵的問題,快速響應小型模型推理這個市場到底有多大,以至于值得拋下靈活的GPU不用,轉而去構建專門的基礎設施。