成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

00后華裔小哥哈佛輟學組團挑戰英偉達,史上最快AI芯片Sohu推理性能超H100二十倍!

人工智能
史上最快Transformer芯片誕生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!剛剛,幾位00后小哥從哈佛輟學后成立的公司Etached,宣布再融資1.2億美元。

有史以來最快的Transformer芯片,剛剛誕生了?

去年21歲哈佛輟學華裔小哥的神級創業故事,進化到了新的階段。

這一次,號稱專為LLM推理加速打造的Sohu芯片,已經成超越Groq,成為最強AI芯片。

如今的Sohu,在跑Llama 70B時每秒可生成高達500000個token的輸出。

換句話說就是:1張Sohu≈20張H100≈10張B200。

圖片圖片

在去年12月,Etced就曾火過一陣,當時兩位哈佛輟學小哥的2人公司,估值已經高達3400萬刀。當時Sohu號稱LLM推理性能達到H100的10倍,單價吞吐量更是高達140倍。

而就在剛剛,Etced又宣布了炸裂的新消息:已籌到1.2億美元。

圖片圖片

就在上周,英偉達的市值達到3.3萬億美元,超過微軟成為全球第一。而Etched相信,自己的35人團隊能夠擊敗英偉達。

他們的豪放預言,得到了硅谷真金白銀的支持。投資名單中,是一眾豪華的機構和硅谷大佬,包括Peter Thiel。

Primary Venture Partners和Positive Sum Ventures領投了這輪融資,機構投資者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。

天使投資者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。

Etched創始人之一Gavin Uberti表示,「我們正在押注人工智能領域最大的賭注——一種只能運行Transformer模型的芯片,但其運行速度比GPU快幾個數量級。也許注意力確實是你所需要的全部...」

圖片圖片

Pika研究人員表示,每秒50萬token簡直太瘋狂了。你可以在2秒內寫出「圣經」,或者一年內生成15萬億token。

圖片圖片

Sohu大約每秒能輸出21個人一天說的話,簡直太不真實了。

圖片圖片

Thiel Fellowship的主任Alex Handy,對幾位年輕人表示了高度的贊許:「投資Etched是對 AI 價值的戰略性押注。他們的芯片解決了競爭對手不敢面對的可擴展性問題,挑戰了同行中普遍存在的停滯狀態?!?/p>

在他看來,正是因為幾位小哥做了底層的工作,硅谷的程序員們才能繼續安心編程,不必擔心正在開發技術的底層出問題。

圖片圖片

兩年前開始的豪賭

這個傳奇的故事,始于兩年前。

2022年,幾位創始人就打賭:Transformer將占領世界。

圖片圖片

為此,他們花了兩年時間打造Sohu,這是世界上第一個用于Transformer的專用芯片(ASIC)。

圖片圖片

將Transformer架構燒錄到Sohu芯片后,它無法運行大多數的傳統AI模型:比如DLRMs、AlphaFold 2,或Stable Diffusion 2;也無法運行CNNs、RNNs或LSTMs。

但對于Transformer來說,Sohu確實是有史以來最快的芯片。但它還可以更快。

對于Llama 70B,Sohu的吞吐量每秒超過了50萬個token,因此它可以構建在GPU上根本不可能實現的產品。

而且,它甚至比英偉達的下一代Blackwell(B200)更快、更便宜!

如今最先進的AI模型,無一不是基于Transformer的,比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。

如果Transformer被SSM、RWKV或任何新架構取代,那Sohu將毫無用處。

但是,創始人小哥表示,如果他們押對了,Sohu將徹底改變世界!

這,就是一場豪賭。

Scale是「超級智能」所需的全部?

五年內,AI模型在大多數標準化測試中,超越了人類。

這是怎么做到的?

因為Meta用于訓練Llama 400B(2024年SOTA模型)的計算量,比OpenAI訓練GPT-2(2019年SOTA模型)多5萬倍。

OpenAI用Scaling Law預測了GPT-4性能,并預計GPT-5+同樣適用OpenAI用Scaling Law預測了GPT-4性能,并預計GPT-5+同樣適用

奧特曼曾說過,「擴展參數規模確實非常重要。當我們在太陽周圍建造了一個戴森球(Dyson Sphere)之后,我們才可以考慮討論是否應該停止這么做,但在那之前不應該停下來」。

也就是說,通過向LLM提供更多的算力和更好的數據,才使得AI變得更加智能。

不得不承認,參數規模擴展(Scale)將會是幾十年來唯一持續有效的方法。

每個大型AI公司(谷歌、OpenAI/微軟、Anthropic/亞馬遜等)都在未來幾年投入超1000億美元來繼續擴大LLM規模。

然而,再擴展1000倍必定是昂貴的,形象地解釋,下一代數據中心的成本將超過一個小國的GDP。

按照目前的發展速度,我們的硬件、成本、財力根本無法跟得上。

GPU撞墻了

圣克拉拉,英偉達總部所在地,不愿意讓人知道的小秘密是——

GPU性能其實沒有變得更好,只是變得更大了。

過去四年里,芯片單位面積的計算能力(每平方毫米的TFLOPS)幾乎沒有提升。

就比如,英偉達的B200、AMD的MI300、英特爾的Gaudi 3,以及亞馬遜的Trainium2都將2個芯片集成到一張卡上,以使其性能翻倍。

如下曲線圖中,也可以看出,從2022年-2025年,AI芯片并沒有真正變得更好只是變得更大了。

在過去四年中,計算密度(TFLOPS/mm^2)僅提高了約15%。

圖片圖片

而現在,隨著摩爾定律的放緩,提高芯片性能的唯一途徑,便是讓其走向「專用」化。

專用芯片,勢在必行

在Transformer占領世界之前,許多公司構建了靈活的AI芯片和GPU來處理數百種不同的機器學習架構。

舉幾個例子:

圖片圖片

卻從來沒有人制造,針對特定算法的AI芯片(ASIC)。

因為,全新的芯片項目需要花費5000萬-1億美元,甚至要用許多年的時間才能投入生產。

當Etched開始著手這一項目時,根本就不存在這樣的市場。

突然間,這種情況一下子發生了轉變。

ChatGPT出現之前,Transformer的推理市場規模大約是5000萬美元。

而現在,已經達到數十億美元。所有的科技巨頭,初創公司都在使用Transformer模型。

大模型架構,都在走向融合趨同。自從GPT-2誕生以來,最先進的模型架構幾乎保持一致!

OpenAI GPT系列、谷歌PaLM、Meta Llama,甚至特斯拉的全自動駕駛系統,都采用了Transformer架構。

圖片

當模型的訓練成本超過10億美元,推理成本超過100億美元時,專用芯片的出現是必然的。

在這種巨大參數規模之下,即使只有1%的性能提升,也足以證明5000萬-1億美元的定制芯片項目是值得的。

實際上,ASIC的速度要比GPU快很多個數量級。

Transformer擁有巨大的護城河

Etched.ai的幾位創始人表示,他們相信硬件彩票——能在硬件上運行得最快、最便宜的模型,就是獲勝的那一個。

而Transformer擁有巨大的護城河,足以在替代方案成熟之前主導各大AI計算市場。

理由如下——

1. Transformer正在為每一個大型AI產品提供支持,無論是Agent、搜索還是聊天。

為了優化GPU去適應Transformer,AI實驗室已經在研發上投入了數億美元。

無論是當前還是下一代SOTA模型,都是基于Transformer的。

2. 隨著未來幾年模型訓練的規模從10億美元擴大到100億美元,再到1000億美元,測試新架構的風險也急劇上升。

與其重新測試Scalling law和性能,不如把時間花在基于Transformer的功能開發上,比如多token預測。

3. 當前的軟件棧,已為Transformer進行了優化。每個流行的庫(TensorRT-LLM、vLLM、Huggingface TGI等),都有在GPU上運行Transformer模型的專用內核。

許多建立在Transformer之上的功能,比如推測解碼、樹搜索等,在替代方案中都很難得到支持。

圖片圖片

Sohu可以通過樹搜索更好地編碼,能夠并行比較數百個響應

4. 未來的硬件棧,也將為Transformer進行優化。比如英偉達的GB200,對Transformer Engine就有特殊的支持。

隨著像Sohu這樣的ASIC進入市場,將會帶來一種不可逆的趨勢。

也就是說,作為「Transformer Killer」的模型需要在GPU上,運行得比Sohu上的Transformer更快。

而但凡出現這種情況,創始人表示,他們也會為此構建一款全新的ASIC!

圖片圖片

Sohu支持多重推測解碼,可以實時生成新內容

Sohu來了!

Sohu是世界上第一個Transformer ASIC。

通過專門化,Sohu獲得了前所未有的性能。一臺8xSohu服務器每秒可以處理超過50萬個Llama 70B token,等效于160塊H100 GPU。

Sohu僅支持Transformer推理,并支持當今所有的模型(Google、Meta、Microsoft、OpenAI、Anthropic等),以及處理未來模型的調整。

無論是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、還是Stability AI的Stable Diffusion 3等等,都可以。

由于Sohu只能運行一種算法,因此絕大多數的控制流邏輯可以被移除,從而允許其擁有更多的數學模塊。

結果就是,Sohu的FLOPS利用率高達90%以上;相比之下,使用TRT-LLM的GPU僅為為30%左右。

如何實現比GPU更多的FLOPS?

目前最先進的算力——英偉達H200,在沒有稀疏處理的情況下具有989 TFLOPS的FP16/BF16算力。(超過了Google的新Trillium芯片之一)

而2025年推出的GB200,將會在算力上增加25%(每個芯片1250 TFLOPS)。

由于GPU的大部分面積都用于可編程性,因此專注于Transformer可以容納更多的算力。

從基本原理上來看,這一點可以很容易被證明:

制造一個FP16/BF16/FP8乘法加法電路(所有矩陣數學的基礎構件)需要10,000個晶體管。H100 SXM有528個張量核心,每個核心有4×8×16個FMA電路。通過計算可以得到,H100有27億個晶體管專用于張量核心。

實際上,H100擁有800億個晶體管!這意味著在H100 GPU上的晶體管中,僅有3.3%用于矩陣乘法!

但問題是,如果想要為各種模型(CNN、LSTM、SSM等)都提供支持,就不得不采取這樣的設計。

這時,如果選擇只運行Transformer,就可以在芯片上容納更多的FLOPS,且無需依賴更低的精度或稀疏處理。

推理的瓶頸是內存帶寬,而非計算?

事實上,對于像Llama-3這樣的現代模型,并非如此!

使用英偉達和AMD的標準基準測試——2048個輸入token和128個輸出token,大多數AI產品的輸入都要比輸出長得多(即使是新的Claude聊天,系統提示也有1000多個token)。

在GPU和Sohu上,推理是以批次運行的。每個批次都會加載一次所有的模型權重,并在批次中的每個token上重復使用它們。

通常,LLM的輸入是計算密集的,而LLM的輸出是內存密集的。所以,當我們將輸入和輸出token與連續批處理結合時,工作負載就會變得非?!赣嬎忝芗埂?/p>

下圖的示例中,就展示了連續批處理LLM的過程。

這個過程中,會運行帶有四個輸入token和四個輸出token的序列;每種顏色代表一個不同的序列。

圖片圖片

同樣的技巧,就可以擴展到2048個輸入token和128個輸出token的Llama-3-70B上。

要讓每個batch,都包含一個序列的2048個輸入token,和127個不同序列的127個輸出token。

如果這樣做的話,每個batch將需要大約(2048+127)×70B參數×每個參數2字節=304 TFLOPs,同時只需要加載70B參數×每個參數2字節=140 GB的模型權重,以及大約127× 64×8×128×(2048+127)×2×2=72GB的KV緩存權重。

這需要的計算,就遠超過內存帶寬的需求,因為一個H200需要6.8PFLOPS的計算能力,才能最大化其內存帶寬。

而且,這是在100%利用率的情況下——如果利用率是30%,需要的計算能力還要多出3倍。

由于Sohu有極高的計算能力和高利用率,我們就可以在不受內存帶寬限制的情況下,運行巨大的吞吐量。

注:在現實世界中,batch通常更大,輸入長度各不相同,并且請求會以泊松分布到達。在這種情況下,Sohu的效果會更好。在這里之所以使用2048/128基準作為例子,是因為英偉達和AMD都在使用。

只需編寫Transformer軟件即可

無論在GPU和還是TPU上,軟件都是一場噩夢。

處理任意的CUDA和PyTorch代碼,需要的編譯器極其復雜。

為此,AMD、英特爾、AWS這些第三方AI芯片,都在軟件上投入了數十億,但效果依然不佳。

這里,Sohu的好處就體現出來了——因為它只運行Transformer模型,所以我們只需要為Transformer模型編寫軟件!

大多數運行開源或內部模型的公司,都會使用特定的Transformer推理庫,如TensorRT-LLM、vLLM或HuggingFace的TGI。

這些框架往往很死板,雖然我們可以調節模型的超參數,但并不支持更改底層的模型代碼。

但是,沒有關系!所有的Transformer模型都非常相似(即使是文本、圖像、視頻模型),調節超參數就足夠了。

這樣,就足以支持95%的AI公司了,不過,最大的AI實驗室,仍然會進行定制化開發。

工程師團隊會手動調優GPU內核,以擠出更多的利用率,并進行逆向工程,比如哪些寄存器對每個張量核心的延遲最低。

而創始人聲稱,有了Etched,我們就不再需要逆向工程了!

從驅動程序到內核再到服務框架,Etched的所有軟件都會是開源的。

如果我們想實現一個自定義的Transformer層,內核專家完全可以自由地去做。

Etched已經破紀錄,將成歷史第一

現在看起來,Etced的決定很瘋狂。

但更瘋狂的是,他們是在2022年做出這項決定的——那時ChatGPT甚至還不存在!

當時,圖像和視頻生成模型還是U-Net模型,自動駕駛汽車是由卷積神經網絡(CNNs)驅動的,Transformer架構還遠未普及。

而現在,形勢顯然對他們非常有利。如今從語言到視覺,每個領域的頂尖模型都是Transformer。

這種趨同驗證了Etced的前瞻性,更使Sohu成為十年來最重要的硬件項目。

種種跡象表明,公司正走在史上最快芯片發布的進程中——

- 頂尖的AI研究人員和硬件工程師紛紛離職原團隊,加入Etced;

- Etced會直接和臺積電合作開發4nm工藝,并且獲得了足夠的HBM和服務器,第一年的產量可以快速提升;

- Etced的早期客戶,已經預訂了數千萬美元的硬件

「如果我們是對的,Sohu將改變世界」

如果AI模型在一夜之間,速度飆升20倍,且成本降低20倍,會發生什么?

目前,Gemini需要60多秒才能回答一個與視頻相關的問題。

編碼智能體的成本,比軟件工程師更高,而且需要數小時才能完成任務。

視頻模型每秒只能生成一幀,甚至ChatGPT注冊用戶達到1000萬時(僅占全球用戶的0.15%),就耗盡了OpenAI的GPU容量。

即便是持續以每兩年2.5倍的速度增加GPU的容量,也得需要10年時間,才能實現「實時」視頻生成。

而現在有了Sohu,這一切將瞬時完成。

網友表示,「AI的未來是定制硬件,實時視頻模型即將現世」!

圖片圖片

如果當實時視頻、通話、AI智能體和搜索功能終于能夠順暢運行時,會發生什么呢?

很快,你就能知道了。

三位哈佛輟學生,挑戰AI芯片霸主英偉達

成立于2022年,這家35人團隊的初創公司Etched,堅信一定能夠擊敗英偉達。

到底是什么樣的背景,能讓三位哈佛輟學生,敢于挑戰芯片行業目前最炙手可熱的賽道呢?

圖片圖片

Robert Wachen、Gavin Uberti、Chris Zhu

創始人兼CEO Gavin Uberti自2020入學哈佛攻讀數學專業,隨后在2022年攻讀碩士學位,專業是計算機。

不過,這兩段上學經歷,都以輟學告終。

圖片圖片

在創辦Etched之前,Gavin Uberti曾在另外兩家公司分別有過一段全職和簡直經歷,擔任了算法和后端工程師,以及軟件工程師。

圖片圖片

在進入大學之前,他參與了美國最著名的青少年科技創新大賽FIRST Tech Challenge,團隊獲得了Top 10獎項。團隊開發的自動駕駛軟件排在600個參賽團隊第二名。

他還曾在2019年,拿過美式數學競賽的冠軍。

圖片圖片

另一位創始人Chris Zhu,也是在哈佛就讀時就在校外瘋狂實習,甚至還沒有從哈佛畢業,就已經成為兼職教員。

圖片圖片

他個人的工作經歷更為豐富些,不僅在高校MIT擔任研究員、哈佛兼職教學研究員,還曾在亞馬遜等公司做過實習。

圖片圖片

最后一位聯創兼COO Robert Wachen是一個多領域的創業者,曾創辦了4家公司。

圖片圖片

圖片圖片

接下來,就看看他們會如何去締造一個新的硅谷神話。

參考資料:https://www.etched.com/announcing-etched

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-12-19 13:32:00

模型數據

2023-09-10 12:37:38

模型英偉達

2024-06-26 12:13:05

2025-04-22 09:47:07

2024-08-29 12:58:35

2025-03-19 10:10:43

2024-04-10 09:28:23

2024-08-28 13:34:13

2019-09-25 14:34:15

AI 數據人工智能

2023-11-14 08:59:25

英偉達AI

2023-10-18 13:17:12

AI芯片英偉達美國

2024-04-10 09:10:27

Gaudi 3芯片英特爾

2021-09-17 12:54:05

AI 數據人工智能

2023-08-28 13:35:00

芯片英偉達

2023-11-21 09:14:33

微軟Azure AI

2024-08-05 08:20:00

馬斯克AI

2023-09-14 13:23:00

AI芯片

2025-04-07 09:00:00

數據測試工具

2024-08-14 13:50:00

模型訓練

2024-09-05 14:10:00

AI計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 又黑又粗又长的欧美一区 | 午夜性色a√在线视频观看9 | 一级做a爰片性色毛片 | 九九热这里 | 性一交一乱一伦视频免费观看 | 日韩不卡在线 | 国产精品免费看 | 国产精品久久片 | 久久人人爽人人爽 | 国产精品色 | www.久久 | 欧美精品在欧美一区二区少妇 | 日韩欧美一区在线 | 国产精品久久久久久久岛一牛影视 | 日韩中文字幕一区 | 欧美日韩久久 | 免费的日批视频 | 亚洲视频中文字幕 | 精品久久久久一区二区国产 | 国产目拍亚洲精品99久久精品 | 国产精品中文字幕在线观看 | 亚洲天堂一区 | 成人精品一区二区三区中文字幕 | 久久久久久91 | 国产精品久久久久久久久久久免费看 | 一区二区成人 | 国产不卡一区在线观看 | 91佛爷在线观看 | 日韩一级一区 | 欧美人人 | 欧美专区日韩 | 国产亚洲一级 | 国产精品99久久久久久www | 日韩中文一区 | 欧美激情久久久 | 欧美一级大片 | 精品视频一区二区三区四区 | 韩国精品在线观看 | 日韩精品免费视频 | 国产欧美久久一区二区三区 | 欧美一区二区三区 |