成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何突破大語言模型的最大瓶頸

譯文
人工智能
速率限制意味著大家都在等待更好的計算資源或不同的生成式AI模型。

譯者 | 布加迪

審校 | 重樓

OpenAIGPT-4AnthropicClaude 2大語言模型(LLM)已經憑借其生成文本的功能激發了公眾的想象力。企業也同樣熱情高漲,許多企業在探索如何利用LLM改進產品和服務。然而,一瓶頸嚴重制約了最先進的LLM在生產環境采用,那就是速率限制。有一些方法可以突破這種速率限制,如果沒有計算資源方面的改進,真正的進步可能不會到來。

承擔成本

公共LLM API允許用戶訪問OpenAIAnthropic等公司模型對每分鐘可以處理的token(文本單位的數量、每分鐘的請求數量以及每天的請求數量施加了嚴格的限制。

OpenAI GPT-4API調用目前限制為每分鐘3個請求RPM每天200個請求,以及每分鐘最多10000token(TPM。最高允許10000 RPM300000 TPM的限制。

針對每分鐘需要處理數百萬個token的大型生產應用程序,這速率限制使得企業使用最先進的LLM實際上行不通。請求不斷增多,需要幾分鐘乃至幾小時,無法進行任何實時處理。

大多數企業仍在竭力安全有效地大規模采用LLM。但是即使它們解決了數據敏感性和內部流程方面的挑戰,速率限制也成一個頑固的障礙。隨著產品使用和數據的積累,圍繞LLM開發產品的初創公司很快會遇到瓶頸,但擁有龐大用戶的大企業受到的限制最大。如果沒有特殊的訪問機制它們的應用程序根本無法運行

該怎么辦

規避速率限制

條路子是完全速率限制技術。比如說,有些特定用途的生成AI模型沒有LLM瓶頸。總部位于英國牛津的初創公司Diffblue依賴沒有速率限制的強化學習技術。它在一件事上做得非常好,非常有效,可能覆蓋數百萬行代碼。它自主創建Java單元測試的速度是開發人員的250倍,編譯速度是開發人員的10倍。

Diffblue Cover編寫的單元測試使您能夠快速了解復雜的應用程序,從而使企業和初創公司都能夠滿懷信心地進行創新,這對于將遺留應用程序遷移到云理想選擇。它還可以自主地編寫新代碼改進現有代碼加速CI/CD管道,在不需要人工審查的情況下深入洞察與變更相關的風險。這不賴。

然,些公司不得不依賴LLM它們又有什么選擇

增加計算資源

一種選擇就是請求提高公司的速率限制。到目前為止這個做法不錯,但潛在的問題是,許多LLM提供商實際上沒有額外的能力提供。這是問題的癥結所在。GPU可用性取決于來自臺積電等代工廠的硅總數。占主導地位的GPU制造商英偉達無法采購足夠的芯片來滿足AI工作負載帶來的爆炸式需求,大規模推理需要成千上萬個GPU組合在一起。

增加GPU供應的最直接方法是建造新的半導體制造工廠,即所謂的晶圓廠。但是一新的晶圓廠造價高達200億美元,需要數年才能建成。英特爾、三星代工、臺積電、德州儀器等主要芯片制造商正在美國建設新的半導體生產設施。眼下所有只能等待。

因此,利用GPT-4的實際生產部署很少。真正部署GPT-4的環境范圍有限,它們使用LLM作為輔助功能,而不是作為核心產品組件。大多數公司仍在評估試點和概念驗證。在考慮速率限制之前,本身就需要將LLM集成到企業工作流程中。

尋找答案

GPU制約限制了GPT-4的處理能力,這促使許多公司使用其他生成式AI模型。比如說,AWS擁有自己的專門用于訓練和推理的芯片一旦訓練好就運行模型,從而為客戶提供了更大的靈活性。重要的是,并不是每個問題都需要最強大、最昂貴的計算資源。AWS提供了一系列更便宜、更容易調的模型,比如Titan Light。一些公司在探索替代方案,比如對Meta的Llama 2開源模型進行微調。針對涉及檢索增強生成RAG)、需要將上下文附加到提示并生成響應簡單用例,功能較弱的模型就足夠了。

另一些技術也有所幫助,比如跨多個具有高限制的舊LLM并行處理請求、數據分塊和模型蒸餾。有幾種技術可以降低推理的成本、提高速度。量化降低了模型中權重的精度,權重通常是32位浮點數。這不是一種新方法。比如說谷歌的推理硬件張量處理單元(TPU)只適用于權重被量化為8位整數的模型。該模型失去了一些準確性,但變得小巧得多,運行起來更快

一種名為“稀疏模型的新流行技術可以降低訓練和推理的成本,耗費的人力模型蒸餾更少。LLM好比是許多較小語言模型的集合。比如說,當用法語GPT-4詢問問題時,只需要使用模型的法語處理部分,稀疏模型就利用了這個特點。

可以做稀疏訓練,只需要訓練模型的法語子集,也可以做稀疏推理,只運行模型的法語部分。與量化一起使用時,這可以從LLM中提取更小的專用模型,這模型可以在CPU而不是GPU上運行。GPT-4之所以出名,是由于它是一個通用文本生成器,而不是更狹窄、更特定的模型。

在硬件方面,專門針對AI工作負載的新處理器架構有望提高效率。Cerebras已經研制了一巨大的晶圓級引擎,針對機器學習進行了優化,而Manticore正在改造制造商丟棄的廢棄GPU芯片,以提供實用的芯片。

最終,最大的成效將來自需要更少計算的下一代LLM。結合經過優化的硬件,未來的LLM可以突破目前的速率限制障礙。目前,眾多渴望的公司競相要求利用LLM的功能,生態系統不堪重負。那些希望在AI領域開辟新道路的人可能需要等到GPU供應進一步趨緩之后。具有諷刺意味的是,這些限制可能恰恰有助于撇除圍繞生成式AI的一些泡沫炒作,讓這個行業有時間適應積極的模式,以便高效經濟地使用它。

原文標題:The biggest bottleneck in large language models,作者:Matt Asay

責任編輯:華軒 來源: 51CTO
相關推薦

2010-01-06 09:40:19

博科資訊物流信息化

2013-07-16 16:46:28

云計算

2011-08-19 15:42:12

Hadoop瓶頸數據處理

2009-04-01 09:24:00

FTTx寬帶運營商

2024-01-19 13:27:51

語言模型LLM

2018-10-09 14:45:34

計算

2023-09-25 07:31:19

算力AI框架

2018-05-07 15:01:16

工業互聯網互聯網互聯網+

2025-05-30 15:53:27

智能體模型AI

2025-06-18 09:06:00

2024-04-22 13:31:00

AI模型

2017-05-22 23:41:04

2018-04-26 19:05:12

云計算云存儲云遷移

2025-01-27 11:34:30

2012-10-22 11:02:57

基礎運營商基礎網絡

2024-10-21 13:20:00

視頻數據集

2024-12-25 14:30:00

大語言模型AI計算

2024-10-25 14:30:00

模型AI

2024-06-19 15:24:38

2021-06-24 10:21:41

IT管理技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 麻豆国产精品777777在线 | 成人精品国产一区二区4080 | 久久久久久亚洲精品 | 在线免费观看亚洲 | 久久久久久久久久久久久久久久久久久久 | 日韩午夜 | 蜜桃在线播放 | 日韩高清不卡 | 狠狠爱综合网 | 欧美影院久久 | 在线一级片 | 中文字幕电影在线观看 | 久久精品在线 | 国产真实精品久久二三区 | 国内av在线| 一级毛片免费看 | 欧美激情一区 | 久久久精 | 欧美三区在线观看 | 欧美一级在线观看 | 噜噜噜色网 | 精品国产31久久久久久 | 日韩午夜 | 日本精品久久久一区二区三区 | 蜜桃av鲁一鲁一鲁一鲁 | 久久国产一区二区三区 | 国产免费拔擦拔擦8x高清 | 欧美亚洲国产成人 | 成人h动漫亚洲一区二区 | 伊人在线视频 | 日韩久久成人 | 精产国产伦理一二三区 | 欧美成人精品 | 中文二区 | 中文一区二区视频 | 中文字幕亚洲精品 | 国产超碰人人爽人人做人人爱 | 99精品热视频 | 久久精品国产一区二区三区 | jizjizjiz中国护士18 | 日韩成人免费视频 |