搜索Agent最新高效推理框架:吞吐量翻3倍、延遲降至1/5,還不犧牲答案質(zhì)量丨南開& UIUC研究
AI越來越聰明,但如果它們反應(yīng)慢,效率低,也難以滿足我們的需求。
大語言模型(LLM)驅(qū)動的搜索智能體,通過動態(tài)拆解問題、交錯執(zhí)行“思考”(推理)和“查找”(檢索)來解決復(fù)雜任務(wù),展現(xiàn)了驚人能力。
然而,這種深度交互的背后,也隱藏著顯著的效率痛點(diǎn)。
處理復(fù)雜任務(wù)時,查得慢、查得不準(zhǔn),都會拖慢整個流程。
來自南開大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸,并提出了一套名為SearchAgent-X的高效推理框架。
實踐表明,SearchAgent-X實現(xiàn)了1.3至3.4倍的吞吐量提升,延遲降至原來的1/1.7至1/5,同時不犧牲最終的答案質(zhì)量。
解析搜索智能體中的兩大效率瓶頸因素
研究者發(fā)現(xiàn),看似簡單的檢索環(huán)節(jié),隱藏著兩大關(guān)鍵的效率制約因素:
檢索精度:并非“越高越好”的微妙平衡
直覺上,檢索越準(zhǔn),LLM獲取信息質(zhì)量越高,效率也應(yīng)該越高。但實際情況是非單調(diào)關(guān)系:
- 過低精度LLM需更多輪檢索和推理彌補(bǔ),總時間增加。
- 過高精度檢索本身計算資源消耗巨大,拖慢整體速度。
研究表明,系統(tǒng)吞吐量隨近似檢索精度先升后降。當(dāng)搜索范圍超過最佳點(diǎn),檢索成本反噬整體效率。
核心洞察:搜索智能體更青睞高召回率的近似搜索,有效支撐推理,避免不必要開銷。
檢索延遲:“差之毫厘”引發(fā)的“千里之堤”效應(yīng)
與傳統(tǒng)RAG不同,搜索智能體對檢索延遲極為敏感。即使微小增加,也可能導(dǎo)致端到端延遲急劇放大(高達(dá)83倍)。這與KV-cache命中率驟降密切相關(guān),迫使系統(tǒng)頻繁重計算。主要原因:
不當(dāng)調(diào)度(Improper Scheduling):
- 現(xiàn)象:標(biāo)準(zhǔn)“先來先服務(wù)”可能讓短任務(wù)搶占長任務(wù)計算資源。
- 惡果:長任務(wù)寶貴KV-cache被“擠掉”,恢復(fù)執(zhí)行時不得不重算。數(shù)據(jù)顯示,高達(dá)55.9%的token被不必要重計算。
檢索停滯(Retrieval Stalls):
- 現(xiàn)象:異步檢索和生成可能時間錯位。長任務(wù)檢索結(jié)果在下一輪生成“窗口期”之后返回。
- 惡果:任務(wù)錯過當(dāng)前調(diào)度批次被迫等待,KV-cache可能被擠占。平均而言,超過25%的序列在完成檢索后會經(jīng)歷此類停滯。
SearchAgent-X的兩大“加速引擎”
基于上述洞察,SearchAgent-X通過智能調(diào)度與自適應(yīng)檢索,最大限度減少延遲,最大化GPU資源利用率,尤其提升KV-cache的有效利用。
利器一:優(yōu)先級感知調(diào)度 (Priority-Aware Scheduling)
解決不當(dāng)調(diào)度問題,SearchAgent-X引入優(yōu)先級調(diào)度,動態(tài)排序并發(fā)請求。
調(diào)度依據(jù):綜合考慮:
- 已完成的檢索次數(shù):檢索越多,計算成果越多,緩存復(fù)用價值越大。
- 當(dāng)前序列的上下文長度:指向更長、可復(fù)用的緩存。
- 請求的等待時間:確保公平。
核心理念:“讓最有價值的計算優(yōu)先”,減少無謂等待與重復(fù)勞動。
利器二:無停頓檢索 (Non-Stall Retrieval)
緩解檢索停滯,SearchAgent-X實現(xiàn)靈活、非阻塞式檢索提前終止策略。
執(zhí)行邏輯:自適應(yīng)判斷是否“見好就收”,依據(jù):
- 檢索結(jié)果的成熟度:新信息帶來的質(zhì)量提升甚微時,認(rèn)為結(jié)果已足夠好。
- LLM引擎的就緒狀態(tài):判斷LLM是否準(zhǔn)備好下一輪計算。
核心理念:當(dāng)檢索結(jié)果足夠成熟且LLM引擎就緒時,SearchAgent-X停止檢索。這種機(jī)制是恰到好處的“放手”,保證信息質(zhì)量同時,讓生成過程無需不必要的等待。
實戰(zhàn)檢驗:效率與質(zhì)量雙豐收
研究者在Qwen-7B/14B等模型上,對SearchAgent-X與多種基線系統(tǒng)進(jìn)行了全面對比。
端到端性能:吞吐與延遲的顯著優(yōu)化
- 離線推理 (所有請求一次性到達(dá)):在Musique數(shù)據(jù)集上,SearchAgent-X的吞吐量比基線系統(tǒng)高出1.3至3.4倍,平均延遲降低至基線系統(tǒng)的20%至60%。
- 在線推理(請求持續(xù)到達(dá)):SearchAgent-X 完成的請求數(shù)量比基線系統(tǒng)多**1.5至3.5 倍。請求速率越高,其優(yōu)勢越明顯,最多時是某些基線的5.8倍。
生成質(zhì)量:效率提升,效果不打折
在Musique, NQ, HotpotQA等六個代表性數(shù)據(jù)集上的評估表明,SearchAgent-X在生成準(zhǔn)確率上,與采用精確檢索的基線系統(tǒng)表現(xiàn)相當(dāng)。
有趣的是,在某些數(shù)據(jù)集上,由于近似檢索帶來的輕微擾動促使模型進(jìn)行額外推理,其準(zhǔn)確率甚至略有提升。
技術(shù)拆解:每一項優(yōu)化都“功不可沒”
消融實驗揭示各組件貢獻(xiàn):
- 優(yōu)先級調(diào)度在引入緩存基礎(chǔ)上,將端到端延遲降低35.55%,KV-cache命中率從0.07提升至0.51。
- 無停頓檢索在前兩者基礎(chǔ)上,進(jìn)一步將KV-cache命中率提升至0.65。它平均僅使檢索時間減少0.01秒,卻顯著降低端到端延遲,印證了“差之毫厘的等待,影響深遠(yuǎn)”。
總結(jié)與展望
未來的AI要解決更宏大、更開放的問題,必然需要更頻繁地與外部工具和知識庫交互,而這恰恰是效率瓶頸所在。
SearchAgent-X揭示了:
- 平衡之殤在AI智能體中,任何單一工具(如檢索)的性能并非越高越好,需要與智能體的整體工作流相匹配。
- 等待之痛在由多個異步組件構(gòu)成的復(fù)雜AI系統(tǒng)中,微小的延遲和不當(dāng)?shù)馁Y源調(diào)度會被急劇放大,造成雪崩效應(yīng)。
該研究通過引入優(yōu)先級感知調(diào)度和無停滯檢索兩項機(jī)制,顯著提升了搜索型AI智能體的推理效率和響應(yīng)速度。
實驗表明,這些優(yōu)化在不犧牲答案質(zhì)量的前提下,有效緩解了深度交互中的延遲與資源浪費(fèi)問題。相關(guān)方法可為包括搜索引擎、企業(yè)問答系統(tǒng)在內(nèi)的多類復(fù)雜AI Agent提供實踐參考。
論文地址: https://arxiv.org/abs/2505.12065Github地址: https://github.com/tiannuo-yang/SearchAgent-X