工作流代理新突破:FlowAgent的合規(guī)性與靈活性解析
在對話系統(tǒng)研究領(lǐng)域,工作流代理的設(shè)計與實現(xiàn)始終充滿了挑戰(zhàn)與機遇。傳統(tǒng)的任務(wù)導向?qū)υ捪到y(tǒng)(TOD)通常采用模塊化流水線架構(gòu),將自然語言理解(NLU)、對話狀態(tài)跟蹤(DST)以及自然語言生成(NLG)功能分離開來。但是這種方法由于誤差傳播問題,效率往往不高。隨著大型語言模型(LLMs)的興起,基于LLMs的端到端對話系統(tǒng)逐漸成為主流,通過工作流引導的互動進行整體對話管理,顯著提高了任務(wù)成功率。
對話系統(tǒng)從模塊化流水線到端到端LLM范式的演變過程中,傳統(tǒng)系統(tǒng)因NLU、DST和NLG模塊間的誤差傳播問題,效率受限。而現(xiàn)代LLM方法通過工作流引導的互動,提升了整體對話管理能力。這一轉(zhuǎn)變不僅需要新的評估指標來衡量任務(wù)成功率,還激發(fā)了對系統(tǒng)合規(guī)性和靈活性的雙重關(guān)注。
在實際應(yīng)用中,LLMs展現(xiàn)出廣闊前景,但對話系統(tǒng)在執(zhí)行任務(wù)時需遵循特定規(guī)則和程序。傳統(tǒng)的基于規(guī)則的方法盡管提供了較高的合規(guī)性,但往往以犧牲靈活性為代價。相對地,基于提示的方法雖能提升靈活性,但在合規(guī)性上存在不足。為了解決這一矛盾,來自騰訊優(yōu)圖實驗室和復旦大學的聯(lián)合研究團隊提出了新的框架——FLOWAGENT,通過引入程序描述語言(PDL),在提升靈活性的同時,確保對話系統(tǒng)的合規(guī)性。
他們的論文《FLOWAGENT: Achieving Compliance and Flexibility for Workflow Agents》提供了對現(xiàn)有LLM基于工作流代理系統(tǒng)的系統(tǒng)分析,重點關(guān)注合規(guī)性和靈活性。基于此分析,研究團隊提出了PDL語法,將自然語言和代碼結(jié)合,靈活描述節(jié)點關(guān)系和工作流程序。研究團隊引入了FLOWAGENT框架,通過創(chuàng)建PDL驅(qū)動的控制器,實現(xiàn)動態(tài)平衡合規(guī)性和靈活性。在三個數(shù)據(jù)集上的實驗表明,F(xiàn)LOWAGENT在預定義工作流內(nèi)外均能平衡合規(guī)性和靈活性。研究團隊還構(gòu)建了一個綜合評估基準,增加現(xiàn)有數(shù)據(jù)集以評估工作流代理在超出工作流(OOW)場景中的性能。研發(fā)團隊開源了其代碼,該代碼地址:https://github/Lightblues/FlowAgent。
研究團隊成員來自兩個機構(gòu):騰訊優(yōu)圖實驗室(Tencent YouTu Lab)和復旦大學(Fudan University)。來自騰訊優(yōu)圖實驗室的成員包括Yuchen Shi、Siqi Cai、Zihan Xu、Yulei Qin、Gang Li、Hang Shao、Ke Li和Xing Sun;復旦大學的成員有Jiawei Chen和Deqing Yang。這些成員共同合作,致力于通過FLOWAGENT框架實現(xiàn)工作流代理的合規(guī)性和靈活性。
相關(guān)工作
隨著大型語言模型(LLM)的發(fā)展,對話系統(tǒng)在理解和生成自然語言方面的能力得到了顯著提升。任務(wù)導向?qū)υ捪到y(tǒng)(TOD)經(jīng)歷了從模塊化流水線到端到端LLM范式的演變。傳統(tǒng)系統(tǒng)在處理用戶請求時,將自然語言理解(NLU)、對話狀態(tài)跟蹤(DST)和自然語言生成(NLG)分為不同的模塊,這些模塊之間的誤差傳播往往會影響系統(tǒng)的整體性能。然而現(xiàn)代的LLM方法通過在單一框架中處理所有這些任務(wù),避免了模塊間的誤差傳播問題。
任務(wù)導向?qū)υ捪到y(tǒng)的早期方法主要依賴于模塊化流水線架構(gòu),將對話過程拆分為多個獨立的組件:自然語言理解(NLU)負責解析用戶輸入,對話狀態(tài)跟蹤(DST)負責記錄對話上下文,自然語言生成(NLG)負責生成系統(tǒng)響應(yīng)。雖然這種方法具有一定的靈活性,但由于每個模塊獨立工作,誤差容易在模塊之間傳播,導致系統(tǒng)性能不穩(wěn)定。
近年來,隨著LLMs的崛起,任務(wù)導向?qū)υ捪到y(tǒng)逐漸向端到端范式轉(zhuǎn)變。在這種新范式下,LLMs能夠在一個統(tǒng)一的框架內(nèi)完成所有任務(wù),從而避免了模塊間誤差傳播的問題。現(xiàn)代方法通過工作流引導的互動實現(xiàn)整體對話管理,提高了任務(wù)的成功率和系統(tǒng)的魯棒性。
傳統(tǒng)的任務(wù)導向?qū)υ捪到y(tǒng)雖然在一定程度上提高了系統(tǒng)的靈活性,但其模塊化結(jié)構(gòu)導致了誤差在各個模塊之間傳播,影響了系統(tǒng)的整體性能。此外,這種方法在處理復雜任務(wù)時,往往需要大量的手動規(guī)則和預定義的模板,難以適應(yīng)多變的用戶需求和場景。
圖1:不同工作流格式的比較
相比之下,現(xiàn)代的LLM方法通過在單一框架中處理所有任務(wù),顯著提高了系統(tǒng)的性能和靈活性。LLMs利用其龐大的預訓練參數(shù),能夠更靈活地與用戶互動,滿足多樣化的需求。同時,LLM驅(qū)動的對話系統(tǒng)通過工作流引導的互動實現(xiàn)整體對話管理,提高了任務(wù)的成功率和系統(tǒng)的魯棒性。
隨著LLMs的發(fā)展,基于LLM的代理在各個領(lǐng)域得到了廣泛應(yīng)用。LLM驅(qū)動的代理通過工具使用和動態(tài)規(guī)劃增強任務(wù)執(zhí)行能力,提高了系統(tǒng)的整體性能。代理工作流架構(gòu)的研究主要集中在兩大范式:工作流生成和工作流執(zhí)行。
工作流生成方法通過LLM的推理能力創(chuàng)建流程,這種方法靈活性較高,但在合規(guī)性上存在一定挑戰(zhàn)。而工作流執(zhí)行方法則在預定義結(jié)構(gòu)內(nèi)操作,通過明確的節(jié)點和狀態(tài)轉(zhuǎn)換規(guī)則控制工作流的進展,確保系統(tǒng)的合規(guī)性。研究團隊主要關(guān)注工作流執(zhí)行范式,將工作流視為預定義的知識,通過PDL語法靈活描述節(jié)點關(guān)系和工作流程序,以實現(xiàn)系統(tǒng)的高效管理和控制。
盡管現(xiàn)有的LLM驅(qū)動代理在一定程度上提高了任務(wù)執(zhí)行能力,但在處理復雜的用戶需求和場景時仍然存在挑戰(zhàn)。基于規(guī)則的方法雖然提供了較高的合規(guī)性,但往往以犧牲靈活性為代價。而基于提示的方法雖然能夠提高靈活性,但在合規(guī)性上存在不足。因此,如何在提高系統(tǒng)靈活性的同時,確保其合規(guī)性,成為了一個亟待解決的問題。
研究團隊通過引入FLOWAGENT框架和程序描述語言(PDL),旨在解決這一矛盾。PDL結(jié)合了自然語言的適應(yīng)性和代碼的精確性,靈活描述工作流節(jié)點關(guān)系和程序邏輯。FLOWAGENT框架通過PDL驅(qū)動的控制器,實現(xiàn)了系統(tǒng)合規(guī)性和靈活性的動態(tài)平衡。實驗結(jié)果表明,F(xiàn)LOWAGENT在處理超出工作流(OOW)場景時,表現(xiàn)出強大的合規(guī)性和靈活性,解決了現(xiàn)有方法在復雜場景下的不足。
方法論
在這一部分中,研究團隊詳細介紹FLOWAGENT的核心組成部分,包括程序描述語言(PDL)語法以及FLOWAGENT架構(gòu)。
程序描述語言(PDL)語法
PDL是一種用于表示工作流的語言,旨在結(jié)合自然語言的靈活性和代碼的精確性,以便更好地描述復雜的任務(wù)流程。PDL主要由以下三個部分組成:
元信息:包含工作流的基本信息,如名稱和描述。這部分信息用于標識工作流,并為其提供簡要介紹,幫助用戶快速理解工作流的目的和作用。
節(jié)點定義:描述代理可以訪問的資源,這些資源包括API節(jié)點(用于外部工具調(diào)用)和ANSWER節(jié)點(用于用戶交互)。API節(jié)點用于執(zhí)行特定的操作,如調(diào)用外部工具或服務(wù);ANSWER節(jié)點則用于與用戶進行交互,獲取必要的信息。
程序描述:定義任務(wù)的程序邏輯,以自然語言和偽代碼的混合形式表達。程序描述部分詳細說明了工作流的執(zhí)行步驟和邏輯關(guān)系,確保任務(wù)能夠按照預定的流程順利完成。
圖2:醫(yī)院預約工作流中FLOWAAGENT的兩個示例會話
PDL的關(guān)鍵特性在于其靈活性和準確性。首先,PDL通過先決條件屬性,定義了節(jié)點之間的依賴關(guān)系。例如,在醫(yī)院預約工作流中,科室查詢節(jié)點需要先完成醫(yī)院選擇節(jié)點,以確保流程的順序性和邏輯性。其次,PDL結(jié)合自然語言和代碼,在保證清晰易懂的同時,確保了工作流的精確性和可操作性。
圖3:PDL中的節(jié)點定義示例
FLOWAGENT架構(gòu)
FLOWAGENT是一個增強工作流代理行為控制的執(zhí)行框架,通過引入PDL,實現(xiàn)了工作流代理的高效管理和控制。FLOWAGENT的設(shè)計包含多個模塊和控制器,以確保系統(tǒng)的合規(guī)性和靈活性。
首先,決策前控制器和決策后控制器在FLOWAGENT架構(gòu)中起到了關(guān)鍵作用。決策前控制器在代理做出決策前,通過評估當前狀態(tài)并向LLM提供反饋,主動指導代理的行為。例如,根據(jù)依賴圖識別不可達節(jié)點,防止代理執(zhí)行無效操作。決策后控制器則在代理做出決策后,通過評估擬議的代理行動的有效性,提供硬約束,確保代理的行為符合預定的工作流邏輯。
圖4:PDL中的過程描述示例
算法流程描述了FLOWAGENT的整體執(zhí)行過程。每輪開始時,系統(tǒng)會接收用戶查詢并更新會話歷史。然后系統(tǒng)遍歷所有決策前控制器,分析當前狀態(tài)并提供反饋。接下來,代理生成響應(yīng)或工具調(diào)用,再遍歷所有決策后控制器,驗證代理的決策。如果決策通過驗證,系統(tǒng)將更新會話歷史并生成面向用戶的響應(yīng);否則,系統(tǒng)會根據(jù)控制器的反饋調(diào)整代理的行為,直到生成符合預期的響應(yīng)。
評估和數(shù)據(jù)
合規(guī)性評估
為了驗證FLOWAGENT的有效性,研究團隊進行了嚴格的合規(guī)性評估。合規(guī)性評估方法包括輪次級和會話級兩種。在輪次級評估中,系統(tǒng)對每一個參考會話中的輪次進行評估,將該輪次的前綴提供給機器人,并預測當前的響應(yīng),然后將預測的響應(yīng)與實際的響應(yīng)進行比較,計算出通過率。對于涉及工具調(diào)用的輪次,還評估了代理在工具選擇和參數(shù)填充方面的性能,使用精確度、召回率和F1評分來衡量其表現(xiàn)。
在會話級評估中,研究團隊使用LLM模擬用戶與機器人的交互,從而盡可能降低人工評估成本。為了確保這些模擬會話準確反映現(xiàn)實世界的復雜性,定義了詳細的用戶資料,包括人口信息、對話風格和與工作流相關(guān)的用戶需求。在生成的每個會話中,進行二元評估以驗證用戶的主要工作流目標是否實現(xiàn),得出成功率。此外,通過跟蹤啟動和完成的子任務(wù)數(shù)量,得出任務(wù)進度指標。會話的端到端評估使用了與Xiao等(2024)推薦一致的提示,同時在精確度、召回率和F1評分方面評估LLM代理在工具調(diào)用方面的性能。
實驗結(jié)果及其分析
在輪次級評估和會話級評估中,F(xiàn)LOWAGENT在任務(wù)完成、任務(wù)進度和工具使用性能等方面均優(yōu)于其他基線方法。表3和表4中的結(jié)果表明,F(xiàn)LOWAGENT在處理超出工作流(OOW)場景時,表現(xiàn)出更高的靈活性和魯棒性。通過詳細分析這些實驗結(jié)果,可以看出,F(xiàn)LOWAGENT在確保系統(tǒng)合規(guī)性的同時,提高了代理在復雜場景中的適應(yīng)能力。
靈活性評估
為了評估FLOWAGENT在實際應(yīng)用中的靈活性,研究團隊針對OOW場景進行了分類和評估。OOW場景主要包括意圖切換、程序跳躍和無關(guān)回答三種類型。在意圖切換場景中,用戶可能突然改變原始意圖請求或需求,包括修改API槽/參數(shù)和取消需求。在程序跳躍場景中,用戶不按照既定工作流程順序提供信息和表達確認,包括跳過步驟或回跳。在無關(guān)回答場景中,用戶故意避免直接回復代理提出的問題,例如用話題轉(zhuǎn)換和反問答復。
基于這些分類,通過在輪次級和會話級評估中插入OOW用戶干預,評估代理在這些特定交互中的即時適應(yīng)響應(yīng)和整體性能。實驗結(jié)果顯示,F(xiàn)LOWAGENT在處理OOW場景時表現(xiàn)出強大的靈活性和適應(yīng)能力。特別是在會話級評估中,F(xiàn)LOWAGENT在任務(wù)成功率、任務(wù)進度和工具使用性能等方面均優(yōu)于其他基線方法,展示了其在復雜場景中的出色表現(xiàn)。
數(shù)據(jù)集構(gòu)建
為了評估FLOWAGENT框架的性能,研究團隊基于現(xiàn)有數(shù)據(jù)集和業(yè)務(wù)相關(guān)數(shù)據(jù)構(gòu)建了三個測試數(shù)據(jù)集:SGD、STAR和In-house。這些數(shù)據(jù)集來源于公開數(shù)據(jù)集和內(nèi)部數(shù)據(jù),通過詳細的構(gòu)建過程,確保數(shù)據(jù)集的代表性和多樣性。
表1顯示了這些數(shù)據(jù)集的統(tǒng)計信息,包括工作流數(shù)量、會話數(shù)量、輪次數(shù)量、用戶資料數(shù)量、用戶意圖數(shù)量和OOW查詢數(shù)量等。通過詳細分析這些數(shù)據(jù)集,可以看出它們涵蓋了廣泛的任務(wù)場景和用戶需求,能夠有效評估FLOWAGENT在不同場景下的表現(xiàn)。
實驗
在這一部分,研究團隊將詳細解析FLOWAGENT的實驗設(shè)置和結(jié)果分析,深入了解其性能和效果。
實驗設(shè)置
基線方法的選擇 為了評估FLOWAGENT的性能,研究團隊選擇了ReAct作為基線方法進行對比。ReAct是一種利用思維和行動結(jié)合來做出決策的方法,將環(huán)境的反饋視為觀察,這屬于基于提示的方法類別。為了表示工作流,研究團隊選擇了三種格式:自然語言(NL)、代碼和流程圖,分別表示為ReActNL、ReActcode和ReActFC。為了確保公平比較,實驗中重用了FlowBench推薦的提示。
實現(xiàn)細節(jié) 在會話級評估中,研究團隊使用GPT-4o-mini進行用戶模擬。對于機器人,初步測試了兩個代表性模型系列:GPT系列和Qwen系列。研究表明,小模型不適合復雜工作流任務(wù),因此選擇了GPT-4o和Qwen2-72B進行演示。在評估過程中,使用GPT-4-Turbo進行判斷,以確保評估的準確性和公正性。更多實現(xiàn)細節(jié)見附錄C.1。
圖5:不同模型指標比較的可視化
實驗結(jié)果
會話級實驗結(jié)果分析 實驗結(jié)果表明,F(xiàn)LOWAGENT在任務(wù)合規(guī)性方面優(yōu)于其他三個基線方法。在會話級評估中,F(xiàn)LOWAGENT在任務(wù)完成、任務(wù)進度和工具使用性能等方面均表現(xiàn)出色,顯著優(yōu)于ReActNL、ReActcode和ReActFC。尤其是在處理超出工作流(OOW)場景時,F(xiàn)LOWAGENT表現(xiàn)出了更高的靈活性和魯棒性。在圖5(a)中,可以清晰地看到FLOWAGENT在不同設(shè)置下的任務(wù)進度指標,突出了其在OOW場景中的優(yōu)勢。
輪次級實驗結(jié)果分析 在輪次級評估中,F(xiàn)LOWAGENT同樣表現(xiàn)出卓越的合規(guī)性和靈活性。Qwen2-72B的輪次級實驗結(jié)果顯示,F(xiàn)LOWAGENT框架在任務(wù)成功率、任務(wù)進度和工具使用性能等方面均取得了最佳成績。不僅在預定義工作流內(nèi)表現(xiàn)出色,在處理OOW場景時也展示了強大的適應(yīng)能力和靈活性。圖5(b)中,成功率指標的對比結(jié)果進一步驗證了FLOWAGENT的卓越性能。
消融實驗分析 為了驗證控制器在FLOWAGENT框架中的重要性,研究團隊進行了消融實驗。在OOW設(shè)置中,實驗結(jié)果表明,移除決策后控制器Cpost或決策前控制器Cpre均會對模型性能產(chǎn)生負面影響,驗證了控制器在確保工作流合規(guī)性方面的關(guān)鍵作用。表5中的實驗結(jié)果顯示,控制器的存在顯著增強了模型的合規(guī)性和穩(wěn)定性,確保代理在復雜場景中的穩(wěn)步進展。
結(jié)論
研究團隊詳細探討基于大型語言模型(LLM)的工作流代理系統(tǒng)FLOWAGENT,通過引入程序描述語言(PDL)和一套控制器,F(xiàn)LOWAGENT在確保合規(guī)性的同時提高了系統(tǒng)的靈活性。PDL結(jié)合了自然語言的適應(yīng)性和代碼的精確性,使得工作流的表示更加靈活和精確。FLOWAGENT框架通過PDL驅(qū)動的控制器,有效地管理工作流代理的行為,確保了系統(tǒng)的合規(guī)性和靈活性。
實驗結(jié)果表明,F(xiàn)LOWAGENT在多個數(shù)據(jù)集上均表現(xiàn)出色,顯著優(yōu)于其他基線方法。在會話級和輪次級評估中,F(xiàn)LOWAGENT在任務(wù)成功率、任務(wù)進度和工具使用性能等方面均取得了最佳成績。特別是在處理超出工作流(OOW)場景時,F(xiàn)LOWAGENT展示了強大的適應(yīng)能力和靈活性。
此外,消融實驗驗證了控制器在確保工作流合規(guī)性方面的關(guān)鍵作用。無論是決策前控制器還是決策后控制器,其存在都顯著增強了模型的合規(guī)性和穩(wěn)定性,確保代理在復雜場景中的穩(wěn)步進展。
盡管FLOWAGENT在合規(guī)性和靈活性方面取得了顯著進展,但仍存在一些局限性。首先,目前的研究主要集中在手動構(gòu)建的工作流上,評估也僅限于這些人工定義的設(shè)置。未來的研究應(yīng)探索動態(tài)工作流合成,以適應(yīng)多變和復雜的用戶需求,而無需人工干預。
其次,盡管本研究使用模擬用戶交互評估了代理在OOW場景下的性能,但其現(xiàn)實世界的適用性仍需在更廣泛的真實用戶需求譜系中進行測試。未來的研究應(yīng)進一步豐富對話多樣性,并在真實用戶環(huán)境中驗證FLOWAGENT的性能和適應(yīng)能力。(END)
參考資料:https://arxiv.org/pdf/2502.14345
本文轉(zhuǎn)載自??獨角噬元獸??,作者: FlerkenS
