00后華裔小哥哈佛輟學組團挑戰英偉達,史上最快AI芯片Sohu推理性能超H100二十倍!
有史以來最快的Transformer芯片,剛剛誕生了?
去年21歲哈佛輟學華裔小哥的神級創業故事,進化到了新的階段。
這一次,號稱專為LLM推理加速打造的Sohu芯片,已經成超越Groq,成為最強AI芯片。
如今的Sohu,在跑Llama 70B時每秒可生成高達500000個token的輸出。
換句話說就是:1張Sohu≈20張H100≈10張B200。
圖片
在去年12月,Etced就曾火過一陣,當時兩位哈佛輟學小哥的2人公司,估值已經高達3400萬刀。當時Sohu號稱LLM推理性能達到H100的10倍,單價吞吐量更是高達140倍。
而就在剛剛,Etced又宣布了炸裂的新消息:已籌到1.2億美元。
圖片
就在上周,英偉達的市值達到3.3萬億美元,超過微軟成為全球第一。而Etched相信,自己的35人團隊能夠擊敗英偉達。
他們的豪放預言,得到了硅谷真金白銀的支持。投資名單中,是一眾豪華的機構和硅谷大佬,包括Peter Thiel。
Primary Venture Partners和Positive Sum Ventures領投了這輪融資,機構投資者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。
天使投資者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。
Etched創始人之一Gavin Uberti表示,「我們正在押注人工智能領域最大的賭注——一種只能運行Transformer模型的芯片,但其運行速度比GPU快幾個數量級。也許注意力確實是你所需要的全部...」
圖片
Pika研究人員表示,每秒50萬token簡直太瘋狂了。你可以在2秒內寫出「圣經」,或者一年內生成15萬億token。
圖片
Sohu大約每秒能輸出21個人一天說的話,簡直太不真實了。
圖片
Thiel Fellowship的主任Alex Handy,對幾位年輕人表示了高度的贊許:「投資Etched是對 AI 價值的戰略性押注。他們的芯片解決了競爭對手不敢面對的可擴展性問題,挑戰了同行中普遍存在的停滯狀態?!?/p>
在他看來,正是因為幾位小哥做了底層的工作,硅谷的程序員們才能繼續安心編程,不必擔心正在開發技術的底層出問題。
圖片
兩年前開始的豪賭
這個傳奇的故事,始于兩年前。
2022年,幾位創始人就打賭:Transformer將占領世界。
圖片
為此,他們花了兩年時間打造Sohu,這是世界上第一個用于Transformer的專用芯片(ASIC)。
圖片
將Transformer架構燒錄到Sohu芯片后,它無法運行大多數的傳統AI模型:比如DLRMs、AlphaFold 2,或Stable Diffusion 2;也無法運行CNNs、RNNs或LSTMs。
但對于Transformer來說,Sohu確實是有史以來最快的芯片。但它還可以更快。
對于Llama 70B,Sohu的吞吐量每秒超過了50萬個token,因此它可以構建在GPU上根本不可能實現的產品。
而且,它甚至比英偉達的下一代Blackwell(B200)更快、更便宜!
如今最先進的AI模型,無一不是基于Transformer的,比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。
如果Transformer被SSM、RWKV或任何新架構取代,那Sohu將毫無用處。
但是,創始人小哥表示,如果他們押對了,Sohu將徹底改變世界!
這,就是一場豪賭。
Scale是「超級智能」所需的全部?
五年內,AI模型在大多數標準化測試中,超越了人類。
這是怎么做到的?
因為Meta用于訓練Llama 400B(2024年SOTA模型)的計算量,比OpenAI訓練GPT-2(2019年SOTA模型)多5萬倍。
OpenAI用Scaling Law預測了GPT-4性能,并預計GPT-5+同樣適用
奧特曼曾說過,「擴展參數規模確實非常重要。當我們在太陽周圍建造了一個戴森球(Dyson Sphere)之后,我們才可以考慮討論是否應該停止這么做,但在那之前不應該停下來」。
也就是說,通過向LLM提供更多的算力和更好的數據,才使得AI變得更加智能。
不得不承認,參數規模擴展(Scale)將會是幾十年來唯一持續有效的方法。
每個大型AI公司(谷歌、OpenAI/微軟、Anthropic/亞馬遜等)都在未來幾年投入超1000億美元來繼續擴大LLM規模。
然而,再擴展1000倍必定是昂貴的,形象地解釋,下一代數據中心的成本將超過一個小國的GDP。
按照目前的發展速度,我們的硬件、成本、財力根本無法跟得上。
GPU撞墻了
圣克拉拉,英偉達總部所在地,不愿意讓人知道的小秘密是——
GPU性能其實沒有變得更好,只是變得更大了。
過去四年里,芯片單位面積的計算能力(每平方毫米的TFLOPS)幾乎沒有提升。
就比如,英偉達的B200、AMD的MI300、英特爾的Gaudi 3,以及亞馬遜的Trainium2都將2個芯片集成到一張卡上,以使其性能翻倍。
如下曲線圖中,也可以看出,從2022年-2025年,AI芯片并沒有真正變得更好只是變得更大了。
在過去四年中,計算密度(TFLOPS/mm^2)僅提高了約15%。
圖片
而現在,隨著摩爾定律的放緩,提高芯片性能的唯一途徑,便是讓其走向「專用」化。
專用芯片,勢在必行
在Transformer占領世界之前,許多公司構建了靈活的AI芯片和GPU來處理數百種不同的機器學習架構。
舉幾個例子:
圖片
卻從來沒有人制造,針對特定算法的AI芯片(ASIC)。
因為,全新的芯片項目需要花費5000萬-1億美元,甚至要用許多年的時間才能投入生產。
當Etched開始著手這一項目時,根本就不存在這樣的市場。
突然間,這種情況一下子發生了轉變。
ChatGPT出現之前,Transformer的推理市場規模大約是5000萬美元。
而現在,已經達到數十億美元。所有的科技巨頭,初創公司都在使用Transformer模型。
大模型架構,都在走向融合趨同。自從GPT-2誕生以來,最先進的模型架構幾乎保持一致!
OpenAI GPT系列、谷歌PaLM、Meta Llama,甚至特斯拉的全自動駕駛系統,都采用了Transformer架構。
當模型的訓練成本超過10億美元,推理成本超過100億美元時,專用芯片的出現是必然的。
在這種巨大參數規模之下,即使只有1%的性能提升,也足以證明5000萬-1億美元的定制芯片項目是值得的。
實際上,ASIC的速度要比GPU快很多個數量級。
Transformer擁有巨大的護城河
Etched.ai的幾位創始人表示,他們相信硬件彩票——能在硬件上運行得最快、最便宜的模型,就是獲勝的那一個。
而Transformer擁有巨大的護城河,足以在替代方案成熟之前主導各大AI計算市場。
理由如下——
1. Transformer正在為每一個大型AI產品提供支持,無論是Agent、搜索還是聊天。
為了優化GPU去適應Transformer,AI實驗室已經在研發上投入了數億美元。
無論是當前還是下一代SOTA模型,都是基于Transformer的。
2. 隨著未來幾年模型訓練的規模從10億美元擴大到100億美元,再到1000億美元,測試新架構的風險也急劇上升。
與其重新測試Scalling law和性能,不如把時間花在基于Transformer的功能開發上,比如多token預測。
3. 當前的軟件棧,已為Transformer進行了優化。每個流行的庫(TensorRT-LLM、vLLM、Huggingface TGI等),都有在GPU上運行Transformer模型的專用內核。
許多建立在Transformer之上的功能,比如推測解碼、樹搜索等,在替代方案中都很難得到支持。
圖片
Sohu可以通過樹搜索更好地編碼,能夠并行比較數百個響應
4. 未來的硬件棧,也將為Transformer進行優化。比如英偉達的GB200,對Transformer Engine就有特殊的支持。
隨著像Sohu這樣的ASIC進入市場,將會帶來一種不可逆的趨勢。
也就是說,作為「Transformer Killer」的模型需要在GPU上,運行得比Sohu上的Transformer更快。
而但凡出現這種情況,創始人表示,他們也會為此構建一款全新的ASIC!
圖片
Sohu支持多重推測解碼,可以實時生成新內容
Sohu來了!
Sohu是世界上第一個Transformer ASIC。
通過專門化,Sohu獲得了前所未有的性能。一臺8xSohu服務器每秒可以處理超過50萬個Llama 70B token,等效于160塊H100 GPU。
Sohu僅支持Transformer推理,并支持當今所有的模型(Google、Meta、Microsoft、OpenAI、Anthropic等),以及處理未來模型的調整。
無論是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、還是Stability AI的Stable Diffusion 3等等,都可以。
由于Sohu只能運行一種算法,因此絕大多數的控制流邏輯可以被移除,從而允許其擁有更多的數學模塊。
結果就是,Sohu的FLOPS利用率高達90%以上;相比之下,使用TRT-LLM的GPU僅為為30%左右。
如何實現比GPU更多的FLOPS?
目前最先進的算力——英偉達H200,在沒有稀疏處理的情況下具有989 TFLOPS的FP16/BF16算力。(超過了Google的新Trillium芯片之一)
而2025年推出的GB200,將會在算力上增加25%(每個芯片1250 TFLOPS)。
由于GPU的大部分面積都用于可編程性,因此專注于Transformer可以容納更多的算力。
從基本原理上來看,這一點可以很容易被證明:
制造一個FP16/BF16/FP8乘法加法電路(所有矩陣數學的基礎構件)需要10,000個晶體管。H100 SXM有528個張量核心,每個核心有4×8×16個FMA電路。通過計算可以得到,H100有27億個晶體管專用于張量核心。
實際上,H100擁有800億個晶體管!這意味著在H100 GPU上的晶體管中,僅有3.3%用于矩陣乘法!
但問題是,如果想要為各種模型(CNN、LSTM、SSM等)都提供支持,就不得不采取這樣的設計。
這時,如果選擇只運行Transformer,就可以在芯片上容納更多的FLOPS,且無需依賴更低的精度或稀疏處理。
推理的瓶頸是內存帶寬,而非計算?
事實上,對于像Llama-3這樣的現代模型,并非如此!
使用英偉達和AMD的標準基準測試——2048個輸入token和128個輸出token,大多數AI產品的輸入都要比輸出長得多(即使是新的Claude聊天,系統提示也有1000多個token)。
在GPU和Sohu上,推理是以批次運行的。每個批次都會加載一次所有的模型權重,并在批次中的每個token上重復使用它們。
通常,LLM的輸入是計算密集的,而LLM的輸出是內存密集的。所以,當我們將輸入和輸出token與連續批處理結合時,工作負載就會變得非?!赣嬎忝芗埂?/p>
下圖的示例中,就展示了連續批處理LLM的過程。
這個過程中,會運行帶有四個輸入token和四個輸出token的序列;每種顏色代表一個不同的序列。
圖片
同樣的技巧,就可以擴展到2048個輸入token和128個輸出token的Llama-3-70B上。
要讓每個batch,都包含一個序列的2048個輸入token,和127個不同序列的127個輸出token。
如果這樣做的話,每個batch將需要大約(2048+127)×70B參數×每個參數2字節=304 TFLOPs,同時只需要加載70B參數×每個參數2字節=140 GB的模型權重,以及大約127× 64×8×128×(2048+127)×2×2=72GB的KV緩存權重。
這需要的計算,就遠超過內存帶寬的需求,因為一個H200需要6.8PFLOPS的計算能力,才能最大化其內存帶寬。
而且,這是在100%利用率的情況下——如果利用率是30%,需要的計算能力還要多出3倍。
由于Sohu有極高的計算能力和高利用率,我們就可以在不受內存帶寬限制的情況下,運行巨大的吞吐量。
注:在現實世界中,batch通常更大,輸入長度各不相同,并且請求會以泊松分布到達。在這種情況下,Sohu的效果會更好。在這里之所以使用2048/128基準作為例子,是因為英偉達和AMD都在使用。
只需編寫Transformer軟件即可
無論在GPU和還是TPU上,軟件都是一場噩夢。
處理任意的CUDA和PyTorch代碼,需要的編譯器極其復雜。
為此,AMD、英特爾、AWS這些第三方AI芯片,都在軟件上投入了數十億,但效果依然不佳。
這里,Sohu的好處就體現出來了——因為它只運行Transformer模型,所以我們只需要為Transformer模型編寫軟件!
大多數運行開源或內部模型的公司,都會使用特定的Transformer推理庫,如TensorRT-LLM、vLLM或HuggingFace的TGI。
這些框架往往很死板,雖然我們可以調節模型的超參數,但并不支持更改底層的模型代碼。
但是,沒有關系!所有的Transformer模型都非常相似(即使是文本、圖像、視頻模型),調節超參數就足夠了。
這樣,就足以支持95%的AI公司了,不過,最大的AI實驗室,仍然會進行定制化開發。
工程師團隊會手動調優GPU內核,以擠出更多的利用率,并進行逆向工程,比如哪些寄存器對每個張量核心的延遲最低。
而創始人聲稱,有了Etched,我們就不再需要逆向工程了!
從驅動程序到內核再到服務框架,Etched的所有軟件都會是開源的。
如果我們想實現一個自定義的Transformer層,內核專家完全可以自由地去做。
Etched已經破紀錄,將成歷史第一
現在看起來,Etced的決定很瘋狂。
但更瘋狂的是,他們是在2022年做出這項決定的——那時ChatGPT甚至還不存在!
當時,圖像和視頻生成模型還是U-Net模型,自動駕駛汽車是由卷積神經網絡(CNNs)驅動的,Transformer架構還遠未普及。
而現在,形勢顯然對他們非常有利。如今從語言到視覺,每個領域的頂尖模型都是Transformer。
這種趨同驗證了Etced的前瞻性,更使Sohu成為十年來最重要的硬件項目。
種種跡象表明,公司正走在史上最快芯片發布的進程中——
- 頂尖的AI研究人員和硬件工程師紛紛離職原團隊,加入Etced;
- Etced會直接和臺積電合作開發4nm工藝,并且獲得了足夠的HBM和服務器,第一年的產量可以快速提升;
- Etced的早期客戶,已經預訂了數千萬美元的硬件
「如果我們是對的,Sohu將改變世界」
如果AI模型在一夜之間,速度飆升20倍,且成本降低20倍,會發生什么?
目前,Gemini需要60多秒才能回答一個與視頻相關的問題。
編碼智能體的成本,比軟件工程師更高,而且需要數小時才能完成任務。
視頻模型每秒只能生成一幀,甚至ChatGPT注冊用戶達到1000萬時(僅占全球用戶的0.15%),就耗盡了OpenAI的GPU容量。
即便是持續以每兩年2.5倍的速度增加GPU的容量,也得需要10年時間,才能實現「實時」視頻生成。
而現在有了Sohu,這一切將瞬時完成。
網友表示,「AI的未來是定制硬件,實時視頻模型即將現世」!
圖片
如果當實時視頻、通話、AI智能體和搜索功能終于能夠順暢運行時,會發生什么呢?
很快,你就能知道了。
三位哈佛輟學生,挑戰AI芯片霸主英偉達
成立于2022年,這家35人團隊的初創公司Etched,堅信一定能夠擊敗英偉達。
到底是什么樣的背景,能讓三位哈佛輟學生,敢于挑戰芯片行業目前最炙手可熱的賽道呢?
圖片
Robert Wachen、Gavin Uberti、Chris Zhu
創始人兼CEO Gavin Uberti自2020入學哈佛攻讀數學專業,隨后在2022年攻讀碩士學位,專業是計算機。
不過,這兩段上學經歷,都以輟學告終。
圖片
在創辦Etched之前,Gavin Uberti曾在另外兩家公司分別有過一段全職和簡直經歷,擔任了算法和后端工程師,以及軟件工程師。
圖片
在進入大學之前,他參與了美國最著名的青少年科技創新大賽FIRST Tech Challenge,團隊獲得了Top 10獎項。團隊開發的自動駕駛軟件排在600個參賽團隊第二名。
他還曾在2019年,拿過美式數學競賽的冠軍。
圖片
另一位創始人Chris Zhu,也是在哈佛就讀時就在校外瘋狂實習,甚至還沒有從哈佛畢業,就已經成為兼職教員。
圖片
他個人的工作經歷更為豐富些,不僅在高校MIT擔任研究員、哈佛兼職教學研究員,還曾在亞馬遜等公司做過實習。
圖片
最后一位聯創兼COO Robert Wachen是一個多領域的創業者,曾創辦了4家公司。
圖片
圖片
接下來,就看看他們會如何去締造一個新的硅谷神話。
參考資料:https://www.etched.com/announcing-etched