智能體自己出現(xiàn)問題自己找!首次提出“自動(dòng)化失敗歸因”課題 | ICML2025 Spotlight
近年來,LLM Multi-Agent系統(tǒng)引起廣泛關(guān)注。它們各顯神通,協(xié)同作戰(zhàn)解決復(fù)雜難題。然而,一頓操作猛如虎,最終結(jié)果卻“慘不忍睹”,一整個(gè)任務(wù)失敗。
這時(shí)候,你是不是頭都大了:究竟是哪個(gè)環(huán)節(jié)的哪個(gè)Agent出了岔子?
在日益復(fù)雜的Multi-Agent系統(tǒng)中,由于Agent之間自主協(xié)作、信息鏈條長(zhǎng),失敗不僅常見,而且診斷起來極其困難。如果我們不能快速定位失敗的根源,系統(tǒng)的迭代和優(yōu)化就無從談起。
針對(duì)這個(gè)問題,賓夕法尼亞州立大學(xué)與杜克大學(xué)聯(lián)合Google DeepMind等機(jī)構(gòu)的研究者們首次提出了“自動(dòng)化失敗歸因”這一全新研究課題,并為此構(gòu)建了首個(gè)專用基準(zhǔn)數(shù)據(jù)集Who&When,開發(fā)和評(píng)估了多種自動(dòng)化歸因方法。
這項(xiàng)工作不僅深刻揭示了該任務(wù)的復(fù)雜性,也為未來提升LLM Multi-Agent 系統(tǒng)的可靠性開辟了新的道路。
該論文獲ICML 2025 Spotlight,代碼與數(shù)據(jù)集已全部開源。
首次提出“自動(dòng)化失敗歸因”課題
LLM驅(qū)動(dòng)的Multi-Agent系統(tǒng)在很多領(lǐng)域展現(xiàn)出巨大潛力。然而,這些系統(tǒng)也存在著脆弱性:?jiǎn)蝹€(gè)Agent的失誤,Agent之間的誤解,以及信息傳遞錯(cuò)誤,都可能導(dǎo)致整體任務(wù)失敗。
目前,一旦系統(tǒng)“翻車”,開發(fā)者往往只能:手動(dòng)“考古”,逐條翻閱冗長(zhǎng)的交互日志,試圖找出問題所在;又或者依賴經(jīng)驗(yàn),這種調(diào)試過程高度依賴開發(fā)者對(duì)系統(tǒng)和任務(wù)的深入理解。
這種“大海撈針”式的排錯(cuò)方式,不僅效率低下,更嚴(yán)重阻礙了系統(tǒng)的快速迭代和可信賴度的提升。目前迫切需要一種自動(dòng)化、系統(tǒng)化的方法來定位失敗原因,將“評(píng)估結(jié)果”與“系統(tǒng)改進(jìn)”有效連接起來。
針對(duì)上述挑戰(zhàn),這篇論文做出了開創(chuàng)性的貢獻(xiàn):
首先,提出并定義新問題,首次將“自動(dòng)化失敗歸因”形式化為一個(gè)具體的研究任務(wù),明確了要找出導(dǎo)致失敗的責(zé)任Agent(failure-responsible agent)和決定性錯(cuò)誤步驟(decisive error step)。
其次,他們構(gòu)建首個(gè)數(shù)據(jù)集Who&When,該數(shù)據(jù)集包含了從127個(gè)LLMMulti-Agent系統(tǒng)中收集的廣泛失敗日志。這些系統(tǒng)既有算法自動(dòng)生成的,也有人類專家精心打造的,確保了場(chǎng)景的真實(shí)性和多樣性。
每條失敗日志都配有細(xì)粒度的人工標(biāo)注:
- “誰”(Who):哪個(gè)Agent是“罪魁禍?zhǔn)住薄?/span>
- “何時(shí)”(When):決定性錯(cuò)誤發(fā)生在交互的哪一步。
- “為何”(Why):對(duì)失敗原因的自然語言解釋。
最后,他們初步探索了“自動(dòng)化歸因”方法。基于Who&When數(shù)據(jù)集,論文設(shè)計(jì)并評(píng)估了三種不同的自動(dòng)化失敗歸因方法:全局審視法(All-at-Once),逐步偵查法(Step-by-Step),二分定位法(Binary Search)。
實(shí)驗(yàn)結(jié)果表明:這三種方法在準(zhǔn)確性、成本和分析粒度上各有千秋,沒有一種能在所有指標(biāo)上完勝。它們共同構(gòu)成了自動(dòng)化失敗歸因任務(wù)的初步“解法庫”。
All-at-Once:向LLM提供用戶查詢和完整的故障日志,要求其一次性識(shí)別出故障責(zé)任Agent以及發(fā)生決定性錯(cuò)誤的具體步驟。它的優(yōu)點(diǎn)是一步到位,成本較低,可能擅長(zhǎng)宏觀判斷責(zé)任。但可能面臨“大海撈針”問題,難以從長(zhǎng)上下文中精確定位具體錯(cuò)誤步驟。
Step-by-Step:模擬人工調(diào)試,讓LLM從頭開始,一步步檢查交互日志,在每個(gè)環(huán)節(jié)判斷當(dāng)前是否出現(xiàn)錯(cuò)誤,直到揪出“真兇”。它如同剝洋蔥般細(xì)致,在定位具體錯(cuò)誤環(huán)節(jié)上更具優(yōu)勢(shì);不過需要多次詢問模型,調(diào)用成本較高,且局部判斷的累積誤差可能導(dǎo)致“誤判”。
Binary Search:這是一種折中策略。將日志對(duì)半切分,利用LLM判斷錯(cuò)誤發(fā)生在前半段還是后半段,然后不斷在確定的半段中遞歸“二分”,最終鎖定問題步驟和相關(guān)Agent。該方法總成本和效果介于前兩者之間。
實(shí)驗(yàn)結(jié)果與主要發(fā)現(xiàn)
實(shí)驗(yàn)在兩種設(shè)定下進(jìn)行:LLM知道Multi-Agent系統(tǒng)需要解決的問題的真實(shí)答案(With Ground Truth)和不知道真實(shí)答案(Without Ground Truth)。主要使用GPT-4o,但也測(cè)試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)
通過在Who&When數(shù)據(jù)集上對(duì)上述方法進(jìn)行了系統(tǒng)評(píng)估,得到了許多重要的發(fā)現(xiàn):
首先,目前的方法離完美還差得很遠(yuǎn)。即便是表現(xiàn)最好的單一方法,在識(shí)別“背鍋Agent”上的準(zhǔn)確率也僅有約53.5%,而在準(zhǔn)確定位“錯(cuò)誤步驟”上,準(zhǔn)確率更是低至14.2%。這意味著,最牛的策略也只能勉強(qiáng)過半猜對(duì)誰是“內(nèi)鬼”,至于錯(cuò)在哪一步,基本靠“蒙”。有些方法的表現(xiàn)甚至不如隨機(jī)猜測(cè),足見任務(wù)之艱巨。
其次,不同方法在不同子任務(wù)上表現(xiàn)各異,沒有萬能冠軍。例如,All-at-Once方法對(duì)“Who”的判斷相對(duì)最好,能夠更準(zhǔn)確地找出哪個(gè)Agent應(yīng)該負(fù)責(zé);而Step-by-Step方法在鎖定具體錯(cuò)誤步驟(“When”)上效果更勝一籌,細(xì)粒度檢查帶來了優(yōu)勢(shì);Binary Search方法則各方面居中,表現(xiàn)中規(guī)中矩。由此體現(xiàn)出每種方案的權(quán)衡取舍:要么整體掃描擅長(zhǎng)找“人”,要么逐步追查利于找“步驟”。
還有“組合拳”效果更優(yōu),但代價(jià)高昂:研究者嘗試了組合不同方法的策略(例如,先使用“全局法”初步判斷責(zé)任Agent,再運(yùn)用“逐步法”精確定位錯(cuò)誤步驟)。結(jié)果表明,這種混合方法確實(shí)能夠提升整體的歸因性能,但同時(shí)也帶來了顯著的計(jì)算成本增加。
最令人驚訝的是,即便是當(dāng)前最先進(jìn)的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務(wù)時(shí)也顯得力不從心。這進(jìn)一步凸顯了“自動(dòng)化失敗歸因”任務(wù)本身的固有難度,其對(duì)AI推理能力的要求超越了當(dāng)前SOTA模型在常規(guī)任務(wù)上的表現(xiàn)。
此外,明確的推理提示至關(guān)重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。
而上下文長(zhǎng)度對(duì)性能構(gòu)成制約,實(shí)驗(yàn)還發(fā)現(xiàn),隨著失敗日志上下文長(zhǎng)度的增加,所有歸因方法的性能均呈現(xiàn)下降趨勢(shì),尤其是在錯(cuò)誤步驟定位的準(zhǔn)確性方面更為敏感。
總結(jié)
“自動(dòng)化失敗歸因”是Multi-Agent系統(tǒng)開發(fā)流程中不可或缺的一環(huán)。它將幫助我們更深入地洞察Multi-Agent的失敗模式,將“哪里出錯(cuò)、誰之過”從令人頭疼的謎題,轉(zhuǎn)變?yōu)榭闪炕治龅膯栴}。通過架起“評(píng)估”與“改進(jìn)”之間的橋梁,我們終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協(xié)作系統(tǒng)。
論文機(jī)構(gòu):賓夕法尼亞州立大學(xué),杜克大學(xué),Google DeepMind,華盛頓大學(xué),Meta,南洋理工大學(xué),俄勒岡州立大學(xué)
論文的共同第一作者是賓夕法尼亞州立大學(xué)的Shaokun Zhang和杜克大學(xué)的Ming Yin。
論文傳送門:https://arxiv.org/pdf/2505.00212
代碼傳送門:https://github.com/mingyin1/Agents_Failure_Attribution
數(shù)據(jù)集傳送門:https://huggingface.co/datasets/Kevin355/Who_and_When