成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

搜索Agent最新高效推理框架:吞吐量翻3倍、延遲降至1/5,還不犧牲答案質(zhì)量丨南開& UIUC研究

人工智能 新聞
來自南開大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸,并提出了一套名為SearchAgent-X的高效推理框架。

AI越來越聰明,但如果它們反應(yīng)慢,效率低,也難以滿足我們的需求。

大語言模型(LLM)驅(qū)動的搜索智能體,通過動態(tài)拆解問題、交錯執(zhí)行“思考”(推理)和“查找”(檢索)來解決復(fù)雜任務(wù),展現(xiàn)了驚人能力。

然而,這種深度交互的背后,也隱藏著顯著的效率痛點(diǎn)。

處理復(fù)雜任務(wù)時,查得慢、查得不準(zhǔn),都會拖慢整個流程。

來自南開大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸,并提出了一套名為SearchAgent-X的高效推理框架。

實踐表明,SearchAgent-X實現(xiàn)了1.3至3.4倍的吞吐量提升,延遲降至原來的1/1.7至1/5,同時不犧牲最終的答案質(zhì)量。

圖片

解析搜索智能體中的兩大效率瓶頸因素

研究者發(fā)現(xiàn),看似簡單的檢索環(huán)節(jié),隱藏著兩大關(guān)鍵的效率制約因素:

檢索精度:并非“越高越好”的微妙平衡

圖片

直覺上,檢索越準(zhǔn),LLM獲取信息質(zhì)量越高,效率也應(yīng)該越高。但實際情況是非單調(diào)關(guān)系

  • 過低精度LLM需更多輪檢索和推理彌補(bǔ),總時間增加。
  • 過高精度檢索本身計算資源消耗巨大,拖慢整體速度。

研究表明,系統(tǒng)吞吐量隨近似檢索精度先升后降。當(dāng)搜索范圍超過最佳點(diǎn),檢索成本反噬整體效率。

核心洞察:搜索智能體更青睞高召回率的近似搜索,有效支撐推理,避免不必要開銷。

檢索延遲:“差之毫厘”引發(fā)的“千里之堤”效應(yīng)

圖片

與傳統(tǒng)RAG不同,搜索智能體對檢索延遲極為敏感。即使微小增加,也可能導(dǎo)致端到端延遲急劇放大(高達(dá)83倍)。這與KV-cache命中率驟降密切相關(guān),迫使系統(tǒng)頻繁重計算。主要原因:

不當(dāng)調(diào)度(Improper Scheduling)

  • 現(xiàn)象:標(biāo)準(zhǔn)“先來先服務(wù)”可能讓短任務(wù)搶占長任務(wù)計算資源。
  • 惡果:長任務(wù)寶貴KV-cache被“擠掉”,恢復(fù)執(zhí)行時不得不重算。數(shù)據(jù)顯示,高達(dá)55.9%的token被不必要重計算。

檢索停滯(Retrieval Stalls)

  • 現(xiàn)象:異步檢索和生成可能時間錯位。長任務(wù)檢索結(jié)果在下一輪生成“窗口期”之后返回。
  • 惡果:任務(wù)錯過當(dāng)前調(diào)度批次被迫等待,KV-cache可能被擠占。平均而言,超過25%的序列在完成檢索后會經(jīng)歷此類停滯。

SearchAgent-X的兩大“加速引擎”

圖片

基于上述洞察,SearchAgent-X通過智能調(diào)度與自適應(yīng)檢索,最大限度減少延遲,最大化GPU資源利用率,尤其提升KV-cache的有效利用。

利器一:優(yōu)先級感知調(diào)度 (Priority-Aware Scheduling)

解決不當(dāng)調(diào)度問題,SearchAgent-X引入優(yōu)先級調(diào)度,動態(tài)排序并發(fā)請求。

調(diào)度依據(jù):綜合考慮:

  • 已完成的檢索次數(shù):檢索越多,計算成果越多,緩存復(fù)用價值越大。
  • 當(dāng)前序列的上下文長度:指向更長、可復(fù)用的緩存。
  • 請求的等待時間:確保公平。

核心理念:“讓最有價值的計算優(yōu)先”,減少無謂等待與重復(fù)勞動。

利器二:無停頓檢索 (Non-Stall Retrieval)

緩解檢索停滯,SearchAgent-X實現(xiàn)靈活、非阻塞式檢索提前終止策略。

執(zhí)行邏輯:自適應(yīng)判斷是否“見好就收”,依據(jù):

  • 檢索結(jié)果的成熟度:新信息帶來的質(zhì)量提升甚微時,認(rèn)為結(jié)果已足夠好。
  • LLM引擎的就緒狀態(tài):判斷LLM是否準(zhǔn)備好下一輪計算。

核心理念:當(dāng)檢索結(jié)果足夠成熟且LLM引擎就緒時,SearchAgent-X停止檢索。這種機(jī)制是恰到好處的“放手”,保證信息質(zhì)量同時,讓生成過程無需不必要的等待。

實戰(zhàn)檢驗:效率與質(zhì)量雙豐收

研究者在Qwen-7B/14B等模型上,對SearchAgent-X與多種基線系統(tǒng)進(jìn)行了全面對比。

端到端性能:吞吐與延遲的顯著優(yōu)化

圖片圖片

  • 離線推理 (所有請求一次性到達(dá)):在Musique數(shù)據(jù)集上,SearchAgent-X的吞吐量比基線系統(tǒng)高出1.3至3.4倍,平均延遲降低至基線系統(tǒng)的20%至60%
  • 在線推理(請求持續(xù)到達(dá)):SearchAgent-X 完成的請求數(shù)量比基線系統(tǒng)多**1.5至3.5 倍。請求速率越高,其優(yōu)勢越明顯,最多時是某些基線的5.8倍。

生成質(zhì)量:效率提升,效果不打折

圖片

在Musique, NQ, HotpotQA等六個代表性數(shù)據(jù)集上的評估表明,SearchAgent-X在生成準(zhǔn)確率上,與采用精確檢索的基線系統(tǒng)表現(xiàn)相當(dāng)

有趣的是,在某些數(shù)據(jù)集上,由于近似檢索帶來的輕微擾動促使模型進(jìn)行額外推理,其準(zhǔn)確率甚至略有提升。

技術(shù)拆解:每一項優(yōu)化都“功不可沒”

圖片

消融實驗揭示各組件貢獻(xiàn):

  • 優(yōu)先級調(diào)度在引入緩存基礎(chǔ)上,將端到端延遲降低35.55%,KV-cache命中率從0.07提升至0.51
  • 無停頓檢索在前兩者基礎(chǔ)上,進(jìn)一步將KV-cache命中率提升至0.65。它平均僅使檢索時間減少0.01秒,卻顯著降低端到端延遲,印證了“差之毫厘的等待,影響深遠(yuǎn)”。

總結(jié)與展望

未來的AI要解決更宏大、更開放的問題,必然需要更頻繁地與外部工具和知識庫交互,而這恰恰是效率瓶頸所在。

SearchAgent-X揭示了:

  • 平衡之殤在AI智能體中,任何單一工具(如檢索)的性能并非越高越好,需要與智能體的整體工作流相匹配。
  • 等待之痛在由多個異步組件構(gòu)成的復(fù)雜AI系統(tǒng)中,微小的延遲和不當(dāng)?shù)馁Y源調(diào)度會被急劇放大,造成雪崩效應(yīng)。

該研究通過引入優(yōu)先級感知調(diào)度無停滯檢索兩項機(jī)制,顯著提升了搜索型AI智能體的推理效率和響應(yīng)速度。

實驗表明,這些優(yōu)化在不犧牲答案質(zhì)量的前提下,有效緩解了深度交互中的延遲與資源浪費(fèi)問題。相關(guān)方法可為包括搜索引擎、企業(yè)問答系統(tǒng)在內(nèi)的多類復(fù)雜AI Agent提供實踐參考。

論文地址: https://arxiv.org/abs/2505.12065Github地址: https://github.com/tiannuo-yang/SearchAgent-X

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-02 10:28:03

2024-06-28 09:39:58

2024-11-01 20:25:28

2023-12-01 14:36:33

模型數(shù)據(jù)

2024-01-19 13:42:00

模型訓(xùn)練

2025-04-27 09:15:40

2023-12-07 06:51:18

AI模型

2023-12-27 13:42:39

模型訓(xùn)練

2025-05-09 02:00:00

代碼接口吞吐量

2024-12-13 13:58:53

2020-06-08 15:01:55

數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)帶寬

2013-04-19 09:45:20

AMPLabHadoopHDFS

2024-05-23 16:41:40

2013-04-25 10:38:40

思科存儲交換機(jī)

2025-01-08 13:15:02

2013-10-11 11:22:14

GraphDBLinux內(nèi)存管理數(shù)據(jù)庫

2024-03-20 10:39:52

微軟Garnet緩存存儲

2023-11-07 15:11:46

Kafka技巧

2023-08-03 14:18:29

Rust阻塞函數(shù)

2023-02-09 08:57:11

Callable異步java
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产成人精品在线 | 美女一级a毛片免费观看97 | 日本黄视频在线观看 | 一二三区视频 | 色婷婷狠狠 | 91在线观| 在线观看国产视频 | 日韩欧美中文字幕在线观看 | av在线二区 | 久久之精品 | 在线视频日韩 | 羞羞的视频在线观看 | 亚洲欧美一区二区三区视频 | 91精品一区二区三区久久久久 | 国产一级视屏 | 国产精品一区久久久 | 亚洲91视频| www.亚洲免费| 一区二区三区视频在线观看 | 国产精品成av人在线视午夜片 | 亚洲精品黑人 | 精品一级 | 久久国产精品精品国产色婷婷 | 国产高清视频 | 国产成人精品免费视频大全最热 | 国产精品久久久久久婷婷天堂 | 欧美video | 99精品网 | 人成精品 | 成人久久久| 偷拍自拍网站 | 在线观看中文字幕 | 天天看天天爽 | 在线黄色影院 | 欧美精品一区在线发布 | 一区二区精品视频 | 午夜在线视频 | 国产精品999 | 亚洲欧美视频 | 国产视频第一页 | 国产精品日韩欧美一区二区 |