圖靈獎得主LeCun加盟AI芯片黑馬Groq,估值28億挑戰英偉達!
英偉達又雙叒迎來強勁挑戰者了。
成立于2016年的初創公司Groq在最新一輪融資中籌集了 6.4 億美元,由 BlackRock Inc. 基金領投,并得到了思科和三星投資部門的支持。
目前,Groq的估值已經達到28億美元。
公司創始人Jonathan Ross曾在谷歌從事TPU芯片的開發,而Groq目前的頂梁柱LPU也是專門用于加速AI基礎模型,尤其是LLM。
Ross表示,一旦人們看到在Groq的快速引擎上使用大語言模型有多么方便,LLM的使用量將會進一步增加。
以更低的價格和能耗,達到與英偉達芯片相同的速度,甚至更快,讓Groq有底氣叫板英偉達。
值得一提的是,Groq還宣布,圖靈獎得主LeCun即將擔任技術顧問。
LeCun的正式加入,成為Groq在競爭激烈的芯片領域一個強大的盟友。
每秒1256.54個token,快如閃電
天下武功,唯快不破。
而能打敗每秒響應800個token的Groq只有下一代的Groq。
從500 token到800 token再到1256.54 token/s,Groq如此之快的速度可謂是讓一眾GPU望塵莫及。
隨著7月初新功能的低調發布,Groq現在的結果要比之前演示的要快得多,也智能得多,不僅支持文本查詢,還能輸入語音命令進行查詢。
默認情況下,Groq 的網站引擎使用Meta的開源Llama3-8b-8192大語言模型。
用戶還可以選擇更大的Llama3-70b,以及來自Google的Gemma和Mistral模型,并且很快也將支持其他模型。
這種快速且靈活的體驗對于開發者來說非常重要。在傳統AGI處理數據時,等待是稀松平常的事情,要看著字符一個一個吐出來再進行下一步的操作。
而在最新版本的Groq中,以上任務幾乎全部瞬間回答,快如閃電。
舉個栗子。比如,在Groq上讓它評論VB Transform活動議程有哪些地方可以加以改進。
1225.15token/s的速度——幾乎就在一瞬間回答就彈了出來。
而且內容也十分詳細清楚,包括建議更清晰的分類、更詳細的會議描述和更好的演講者簡介等等,共十點修改意見。
當語音輸入要求推薦一些優秀的演講者以使陣容更加多樣化時,它立即生成了一份名單,姓名、所屬組織和可供選擇的演講主題給你安排的明明白白的,并且以清晰表格格式呈現。
要求它追加一列聯系方式,也瞬間補充好郵箱地址和推特賬號,不在話下。
再舉個栗子。視頻中巴拉巴拉說了一分多鐘,要求Groq為下周的演講課程創建一個日程表格。
Groq不僅耐心地聽懂了,創建了要求的表格,還允許快速輕松地進行修改,包括拼寫更正。
還可以改變主意,要求它為我忘記要求的內容創建額外的欄目,耐心高效細致,甲方眼里的完美乙方不過如此。
還可以翻譯成不同的語言。有時會出現發出了幾次請求才做出更正的情況,但這種錯誤一般是在LLM層面,而不是處理層面。
可以說,從500 token/s到800 token/s再到如今直接拉到每秒四位數的生成速度,把GPT-4和英偉達秒的更徹底了。
當然,除了「快」之外,此次更新的另一亮點是除了引擎內直接輸入查詢,還允許用戶通過語音命令進行查詢。
Groq使用了OpenAI的最新開源的自動語音識別和翻譯模型Whisper Large v3,將語音轉換為文本,然后作為LLM的提示。
提速增效再加多模態輸入,不卡頓還能不打字,這種創新的使用方式為用戶提供了極大的便利。
Groq + Llama 3強強聯合
7月17日,Groq的研究科學家Rick Lamers又在推特上官宣了一個「秘密項目」——微調出的Llama3 Groq Synth Tool Use模型8B和70B型號 ,旨在提升AI的工具使用和函數調用能力。
團隊結合了全量微調和直接偏好優化(DPO),并且完全使用符合道德規范的生成數據,沒有涉及任何用戶數據。
伯克利函數調用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的數據全部來源于真實世界,專門用于評估LLM調用工具或函數的的能力。
Groq本次發布的微調Llama3 8B和70B的版本都在BFCL上取得了相當驚艷的成績,總體準確率分別為90.76%和89.06%。
其中,70B版本的分數超過了Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o和Gemini 1.5 Pro等專有模型,達到了BFCL榜單第一的位置。
兩個版本的模型都已開源,用戶可從HuggingFace上下載權重或通過GroqCloud訪問。
HugggingFace地址:https://huggingface.co/Groq
此外,Groq還在Llama 3的基礎上進一步發揮自己「唯快不破」的秘籍,推出了一款名為Groqbook的應用程序,可以在1分鐘內內生成出一整本書。
GitHub地址:https://github.com/Bklieger/groqbook
根據GitHub主頁的介紹,Groqbook混合使用了Llama3-8B和70B兩個模型,用較大模型生成結構,再讓較小模型創作具體內容。
目前,這個程序只適用于非虛構類書籍,并需要用戶輸入每一章節的標題作為上下文。
Groq表示,未來將讓Groqbook生成整本書內容,并擴展到虛構類書籍,創作出高質量的小說。
開發者4個月突破28萬
解決了用戶使用的核心痛點,Groq自然備受使用者歡迎。
上線4個月后,Groq已經開始免費提供服務來處理LLM工作負載,吸引了超過28.2萬名開發者使用。
Groq提供了一個平臺供開發者構建他們的應用程序,類似于其他推理服務提供商。
然而,Groq的特別之處在于,它允許在OpenAI上構建應用程序的開發者通過簡單的步驟在幾秒鐘內將他們的應用程序遷移到Groq。
Ross表示他將很快專注于需求量極大的企業市場。大公司正在廣泛推進AI應用的部署,因此需要更高效的處理能力來應對他們的工作負載。
Groq表示,其技術在最壞情況下使用的功率約為GPU的三分之一,而大多數工作負載僅使用十分之一的功率。
在LLM工作負載不斷擴展、能源需求持續增長的背景下,Groq的高效性能對GPU主導的計算領域構成了挑戰。
Nvidia雖然擅長AI訓練但在推理方面存在局限,Groq的芯片在推理速度和成本上都有數倍優勢,未來推理市場的份額將從現在的5%提升到90%-95%。
Ross自信聲稱,到明年底將部署150萬個LPU,占據全球推理需求半壁江山。
LPU:快,真的快
目前來說,模型訓練雖然首選GPU,但是部署AI應用程序時,更高的效率和更低的延遲也極為重要。
正如Groq第一次闖入大眾視野是因為一個字,「快」,Groq此次提速繼續在速度的賽道狂飆。
Groq承諾可以比競爭對手更快更經濟地完成任務,在一定程度上得益于其語言處理單元(LPU)。
相比GPU,LPU減少了管理多個線程的開銷,并避免了核心利用率不足。此外,Groq 的芯片設計還允許連接多個專用核心,而不會出現 GPU 集群中出現的傳統瓶頸。
LPU的工作原理和 GPU存在顯著差異,具體來說,LPU采用的是時序指令集計算機(Temporal Instruction Set Computer)架構,這一架構的特性就是無需像依賴高帶寬存儲器(HBM)的GPU那樣,頻繁地從內存中加載數據。
LPU不依賴外部內存,其權重、鍵值緩存(KV Cache)和激活函數等數據在處理期間全部存儲在芯片內,不僅能夠巧妙規避HBM短缺所帶來的困擾,還能切實有效地削減成本。
與Nvidia GPU對高速數據傳輸的依賴有所不同,Groq的LPU在其系統架構中并未采用HBM,而是選用了SRAM。
由于每塊芯片只配備了230MB的SRAM,沒有任何復雜的模型能夠僅通過單個芯片運行。值得一提的是,SRAM的速度相較GPU所使用的存儲器約快20倍。
鑒于AI的推理計算所需的數據量相較于模型訓練大幅減少,Groq的LPU展現出更為出色的節能優勢。
在執行推理任務時,其從外部內存讀取的數據量顯著降低,所消耗的電量也明顯低于GPU。
遺憾的是,英偉達的GPU可以同時用于訓練和推理,但LPU僅為模型推理設計。