作者 | Matt Asay
策劃 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
速率限制意味著每個人都在等待更好的計算資源或不同的生成人工智能模型。
大型語言模型(LLM),如OpenAI的GPT-4和Anthropic的Claude 2,憑借其生成類人文本的能力,吸引了公眾的想象力。企業(yè)也同樣熱情高漲,許多企業(yè)正在探索如何利用LLM來改進產(chǎn)品和服務(wù)。然而,一個主要瓶頸嚴(yán)重制約了在生產(chǎn)環(huán)境中采用最先進的LLM:速率限制。有一些方法可以通過這些費率限制收費站,但如果沒有計算資源的改進,真正的進展可能不會到來。
1、為瓶頸付出的代價
允許訪問OpenAI和Anthropic等公司模型的公共LLM API對每分鐘可處理的令牌(文本單位)數(shù)量、每分鐘的請求數(shù)量和每天的請求數(shù)量施加了嚴(yán)格限制。
例如,這句話將消耗九個標(biāo)記。目前,對OpenAI GPT-4的API調(diào)用限制為每分鐘三個請求(RPM)、每天200個請求和每分鐘最多10000個令牌(TPM)。
最高級別允許10000 RPM和300000 TPM的限制。對于每分鐘需要處理數(shù)百萬個代幣的大型生產(chǎn)應(yīng)用程序,這些速率限制使得使用最先進的LLM基本上不可行。請求堆積起來,需要幾分鐘或幾個小時,無法進行任何實時處理。
大多數(shù)企業(yè)仍在努力在規(guī)模上安全有效地采用LLM。但是,即使他們在應(yīng)對數(shù)據(jù)敏感度和內(nèi)部流程方面的挑戰(zhàn)時,速率限制也是一個頑固的障礙。當(dāng)產(chǎn)品使用量和數(shù)據(jù)積累時,圍繞LLM構(gòu)建產(chǎn)品的初創(chuàng)企業(yè)很快就會達到峰值,但擁有龐大用戶基礎(chǔ)的大型企業(yè)受到的限制最大。如果沒有特殊訪問權(quán)限,他們的應(yīng)用程序?qū)⒏緹o法工作。
怎么辦?
2、繞過速率限制
一種方法是完全跳過速率限制技術(shù)。例如,有一些特定用途的生成人工智能模型沒有LLM瓶頸。Diffblue是一家總部位于英國牛津的初創(chuàng)公司,它依賴于不受費率限制的強化學(xué)習(xí)技術(shù)。它做一件事非常好,非常高效,可以覆蓋數(shù)百萬行代碼。
它以開發(fā)人員250倍的速度自主創(chuàng)建Java單元測試,編譯速度快10倍。Diffblue Cover編寫的單元測試能夠快速理解復(fù)雜的應(yīng)用程序,使企業(yè)和初創(chuàng)公司都能滿懷信心地進行創(chuàng)新,例如,這是將傳統(tǒng)應(yīng)用程序轉(zhuǎn)移到云的理想選擇。它還可以自主編寫新代碼,改進現(xiàn)有代碼,加速CI/CD管道,并在不需要手動審查的情況下深入了解與更改相關(guān)的風(fēng)險。還不錯。
當(dāng)然,有些公司不得不依賴LLM。他們有什么選擇?
3、請多加計算
一種選擇是簡單地要求提高公司的利率限制。到目前為止,這還可以,但潛在的問題是,許多LLM提供商實際上沒有額外的能力提供服務(wù)。這就是問題的癥結(jié)所在。GPU的可用性取決于從臺積電等鑄造廠開始的總硅片數(shù)量。占主導(dǎo)地位的GPU制造商英偉達無法采購足夠的芯片來滿足人工智能工作負載驅(qū)動的爆炸性需求,大規(guī)模推理需要數(shù)千個GPU聚集在一起。
增加GPU供應(yīng)的最直接方法是建造新的半導(dǎo)體制造廠,即晶圓廠。但一個新的晶圓廠成本高達200億美元,需要數(shù)年時間才能建成。英特爾、三星鑄造、臺積電和德州儀器等主要芯片制造商正在美國建造新的半導(dǎo)體生產(chǎn)設(shè)施。總有一天,那會很棒。現(xiàn)在,每個人都必須等待。
因此,利用GPT-4的實際生產(chǎn)部署很少。這樣做的范圍不大,將LLM用于輔助功能,而不是作為核心產(chǎn)品組件。大多數(shù)公司仍在評估試點和概念驗證。在考慮費率限制之前,將LLM集成到企業(yè)工作流程中所需的提升本身就相當(dāng)大。
4、尋找答案
限制GPT-4吞吐量的GPU限制促使許多公司使用其他生成人工智能模型。例如,AWS有自己的專門芯片用于訓(xùn)練和推理(訓(xùn)練后運行模型),使其客戶具有更大的靈活性。重要的是,并不是每個問題都需要最強大、最昂貴的計算資源。AWS提供了一系列更便宜、更容易微調(diào)的型號,如Titan Light。
一些公司正在探索其他選擇,比如微調(diào)開源模型,比如Meta的Llama 2。對于涉及檢索增強生成(RAG)的簡單用例,需要將上下文附加到提示并生成響應(yīng),功能較弱的模型就足夠了。
跨多個具有更高限制的舊LLM并行請求、數(shù)據(jù)分塊和模型提取等技術(shù)也會有所幫助。有幾種技術(shù)可以使推理更便宜、更快。量化降低了模型中權(quán)重的精度,這些權(quán)重通常是32位浮點數(shù)字。這不是一種新方法。例如,谷歌的推理硬件張量處理單元(TPU)僅適用于權(quán)重已量化為八位整數(shù)的模型。該模型失去了一些準(zhǔn)確性,但變得更小,運行速度更快。一種名為“稀疏模型”的新流行技術(shù)可以降低訓(xùn)練和推理的成本,而且它比蒸餾技術(shù)勞動密集度更低。您可以將LLM視為許多較小語言模型的集合。例如,當(dāng)你用法語問GPT-4一個問題時,只需要使用模型的法語處理部分,這就是稀疏模型所利用的。
你可以進行稀疏訓(xùn)練,只需要用法語訓(xùn)練模型的一個子集,也可以進行稀疏推理,只運行模型的法語部分。當(dāng)與量化一起使用時,這可以是一種從LLM中提取較小專用模型的方法,LLM可以在CPU而不是GPU上運行(盡管精度損失很小)。問題是什么?GPT-4之所以出名,是因為它是一個通用的文本生成器,而不是一個更窄、更具體的模型。
在硬件方面,專門用于人工智能工作負載的新處理器架構(gòu)有望提高效率。Cerebras已經(jīng)構(gòu)建了一個為機器學(xué)習(xí)優(yōu)化的巨大晶圓級引擎,Manticore正在重新利用制造商丟棄的“被拒絕的”GPU硅來提供可用的芯片。最終,最大的收益將來自于需要更少計算的下一代LLM。結(jié)合優(yōu)化的硬件,未來的LLM可以突破今天的速率限制障礙。
目前,生態(tài)系統(tǒng)在渴望利用LLM力量的公司的壓力下變得緊張。那些希望在人工智能方面開辟新天地的人可能需要等到GPU供應(yīng)在未來漫長的道路上進一步開放。具有諷刺意味的是,這些限制可能有助于緩和圍繞生成性人工智能的一些泡沫炒作,讓行業(yè)有時間適應(yīng)積極的模式,高效、經(jīng)濟地使用它。
參考鏈接:https://www.infoworld.com/article/3712300/the-biggest-bottleneck-in-a-large-language-model.html