工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析

發(fā)布于 2025-3-4 09:46

瀏覽

0收藏

在對話系統(tǒng)研究領(lǐng)域，工作流代理的設(shè)計與實現(xiàn)始終充滿了挑戰(zhàn)與機遇。傳統(tǒng)的任務(wù)導向?qū)υ捪到y(tǒng)（TOD）通常采用模塊化流水線架構(gòu)，將自然語言理解（NLU）、對話狀態(tài)跟蹤（DST）以及自然語言生成（NLG）功能分離開來。但是這種方法由于誤差傳播問題，效率往往不高。隨著大型語言模型（LLMs）的興起，基于LLMs的端到端對話系統(tǒng)逐漸成為主流，通過工作流引導的互動進行整體對話管理，顯著提高了任務(wù)成功率。

對話系統(tǒng)從模塊化流水線到端到端LLM范式的演變過程中，傳統(tǒng)系統(tǒng)因NLU、DST和NLG模塊間的誤差傳播問題，效率受限。而現(xiàn)代LLM方法通過工作流引導的互動，提升了整體對話管理能力。這一轉(zhuǎn)變不僅需要新的評估指標來衡量任務(wù)成功率，還激發(fā)了對系統(tǒng)合規(guī)性和靈活性的雙重關(guān)注。

在實際應(yīng)用中，LLMs展現(xiàn)出廣闊前景，但對話系統(tǒng)在執(zhí)行任務(wù)時需遵循特定規(guī)則和程序。傳統(tǒng)的基于規(guī)則的方法盡管提供了較高的合規(guī)性，但往往以犧牲靈活性為代價。相對地，基于提示的方法雖能提升靈活性，但在合規(guī)性上存在不足。為了解決這一矛盾，來自騰訊優(yōu)圖實驗室和復旦大學的聯(lián)合研究團隊提出了新的框架——FLOWAGENT，通過引入程序描述語言（PDL），在提升靈活性的同時，確保對話系統(tǒng)的合規(guī)性。

他們的論文《FLOWAGENT: Achieving Compliance and Flexibility for Workflow Agents》提供了對現(xiàn)有LLM基于工作流代理系統(tǒng)的系統(tǒng)分析，重點關(guān)注合規(guī)性和靈活性。基于此分析，研究團隊提出了PDL語法，將自然語言和代碼結(jié)合，靈活描述節(jié)點關(guān)系和工作流程序。研究團隊引入了FLOWAGENT框架，通過創(chuàng)建PDL驅(qū)動的控制器，實現(xiàn)動態(tài)平衡合規(guī)性和靈活性。在三個數(shù)據(jù)集上的實驗表明，F(xiàn)LOWAGENT在預定義工作流內(nèi)外均能平衡合規(guī)性和靈活性。研究團隊還構(gòu)建了一個綜合評估基準，增加現(xiàn)有數(shù)據(jù)集以評估工作流代理在超出工作流（OOW）場景中的性能。研發(fā)團隊開源了其代碼，該代碼地址：https://github/Lightblues/FlowAgent。

研究團隊成員來自兩個機構(gòu)：騰訊優(yōu)圖實驗室（Tencent YouTu Lab）和復旦大學（Fudan University）。來自騰訊優(yōu)圖實驗室的成員包括Yuchen Shi、Siqi Cai、Zihan Xu、Yulei Qin、Gang Li、Hang Shao、Ke Li和Xing Sun；復旦大學的成員有Jiawei Chen和Deqing Yang。這些成員共同合作，致力于通過FLOWAGENT框架實現(xiàn)工作流代理的合規(guī)性和靈活性。

方法論

在這一部分中，研究團隊詳細介紹FLOWAGENT的核心組成部分，包括程序描述語言（PDL）語法以及FLOWAGENT架構(gòu)。

程序描述語言（PDL）語法

PDL是一種用于表示工作流的語言，旨在結(jié)合自然語言的靈活性和代碼的精確性，以便更好地描述復雜的任務(wù)流程。PDL主要由以下三個部分組成：

元信息：包含工作流的基本信息，如名稱和描述。這部分信息用于標識工作流，并為其提供簡要介紹，幫助用戶快速理解工作流的目的和作用。

節(jié)點定義：描述代理可以訪問的資源，這些資源包括API節(jié)點（用于外部工具調(diào)用）和ANSWER節(jié)點（用于用戶交互）。API節(jié)點用于執(zhí)行特定的操作，如調(diào)用外部工具或服務(wù)；ANSWER節(jié)點則用于與用戶進行交互，獲取必要的信息。

程序描述：定義任務(wù)的程序邏輯，以自然語言和偽代碼的混合形式表達。程序描述部分詳細說明了工作流的執(zhí)行步驟和邏輯關(guān)系，確保任務(wù)能夠按照預定的流程順利完成。

工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析-AI.x社區(qū)

圖2：醫(yī)院預約工作流中FLOWAAGENT的兩個示例會話

PDL的關(guān)鍵特性在于其靈活性和準確性。首先，PDL通過先決條件屬性，定義了節(jié)點之間的依賴關(guān)系。例如，在醫(yī)院預約工作流中，科室查詢節(jié)點需要先完成醫(yī)院選擇節(jié)點，以確保流程的順序性和邏輯性。其次，PDL結(jié)合自然語言和代碼，在保證清晰易懂的同時，確保了工作流的精確性和可操作性。

工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析-AI.x社區(qū)

圖3:PDL中的節(jié)點定義示例

FLOWAGENT架構(gòu)

FLOWAGENT是一個增強工作流代理行為控制的執(zhí)行框架，通過引入PDL，實現(xiàn)了工作流代理的高效管理和控制。FLOWAGENT的設(shè)計包含多個模塊和控制器，以確保系統(tǒng)的合規(guī)性和靈活性。

首先，決策前控制器和決策后控制器在FLOWAGENT架構(gòu)中起到了關(guān)鍵作用。決策前控制器在代理做出決策前，通過評估當前狀態(tài)并向LLM提供反饋，主動指導代理的行為。例如，根據(jù)依賴圖識別不可達節(jié)點，防止代理執(zhí)行無效操作。決策后控制器則在代理做出決策后，通過評估擬議的代理行動的有效性，提供硬約束，確保代理的行為符合預定的工作流邏輯。

工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析-AI.x社區(qū)

圖4:PDL中的過程描述示例

算法流程描述了FLOWAGENT的整體執(zhí)行過程。每輪開始時，系統(tǒng)會接收用戶查詢并更新會話歷史。然后系統(tǒng)遍歷所有決策前控制器，分析當前狀態(tài)并提供反饋。接下來，代理生成響應(yīng)或工具調(diào)用，再遍歷所有決策后控制器，驗證代理的決策。如果決策通過驗證，系統(tǒng)將更新會話歷史并生成面向用戶的響應(yīng)；否則，系統(tǒng)會根據(jù)控制器的反饋調(diào)整代理的行為，直到生成符合預期的響應(yīng)。

評估和數(shù)據(jù)

合規(guī)性評估

為了驗證FLOWAGENT的有效性，研究團隊進行了嚴格的合規(guī)性評估。合規(guī)性評估方法包括輪次級和會話級兩種。在輪次級評估中，系統(tǒng)對每一個參考會話中的輪次進行評估，將該輪次的前綴提供給機器人，并預測當前的響應(yīng)，然后將預測的響應(yīng)與實際的響應(yīng)進行比較，計算出通過率。對于涉及工具調(diào)用的輪次，還評估了代理在工具選擇和參數(shù)填充方面的性能，使用精確度、召回率和F1評分來衡量其表現(xiàn)。

在會話級評估中，研究團隊使用LLM模擬用戶與機器人的交互，從而盡可能降低人工評估成本。為了確保這些模擬會話準確反映現(xiàn)實世界的復雜性，定義了詳細的用戶資料，包括人口信息、對話風格和與工作流相關(guān)的用戶需求。在生成的每個會話中，進行二元評估以驗證用戶的主要工作流目標是否實現(xiàn)，得出成功率。此外，通過跟蹤啟動和完成的子任務(wù)數(shù)量，得出任務(wù)進度指標。會話的端到端評估使用了與Xiao等（2024）推薦一致的提示，同時在精確度、召回率和F1評分方面評估LLM代理在工具調(diào)用方面的性能。

實驗結(jié)果及其分析

在輪次級評估和會話級評估中，F(xiàn)LOWAGENT在任務(wù)完成、任務(wù)進度和工具使用性能等方面均優(yōu)于其他基線方法。表3和表4中的結(jié)果表明，F(xiàn)LOWAGENT在處理超出工作流（OOW）場景時，表現(xiàn)出更高的靈活性和魯棒性。通過詳細分析這些實驗結(jié)果，可以看出，F(xiàn)LOWAGENT在確保系統(tǒng)合規(guī)性的同時，提高了代理在復雜場景中的適應(yīng)能力。

工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析-AI.x社區(qū)

靈活性評估

為了評估FLOWAGENT在實際應(yīng)用中的靈活性，研究團隊針對OOW場景進行了分類和評估。OOW場景主要包括意圖切換、程序跳躍和無關(guān)回答三種類型。在意圖切換場景中，用戶可能突然改變原始意圖請求或需求，包括修改API槽/參數(shù)和取消需求。在程序跳躍場景中，用戶不按照既定工作流程順序提供信息和表達確認，包括跳過步驟或回跳。在無關(guān)回答場景中，用戶故意避免直接回復代理提出的問題，例如用話題轉(zhuǎn)換和反問答復。

基于這些分類，通過在輪次級和會話級評估中插入OOW用戶干預，評估代理在這些特定交互中的即時適應(yīng)響應(yīng)和整體性能。實驗結(jié)果顯示，F(xiàn)LOWAGENT在處理OOW場景時表現(xiàn)出強大的靈活性和適應(yīng)能力。特別是在會話級評估中，F(xiàn)LOWAGENT在任務(wù)成功率、任務(wù)進度和工具使用性能等方面均優(yōu)于其他基線方法，展示了其在復雜場景中的出色表現(xiàn)。

數(shù)據(jù)集構(gòu)建

為了評估FLOWAGENT框架的性能，研究團隊基于現(xiàn)有數(shù)據(jù)集和業(yè)務(wù)相關(guān)數(shù)據(jù)構(gòu)建了三個測試數(shù)據(jù)集：SGD、STAR和In-house。這些數(shù)據(jù)集來源于公開數(shù)據(jù)集和內(nèi)部數(shù)據(jù)，通過詳細的構(gòu)建過程，確保數(shù)據(jù)集的代表性和多樣性。

工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析-AI.x社區(qū)

表1顯示了這些數(shù)據(jù)集的統(tǒng)計信息，包括工作流數(shù)量、會話數(shù)量、輪次數(shù)量、用戶資料數(shù)量、用戶意圖數(shù)量和OOW查詢數(shù)量等。通過詳細分析這些數(shù)據(jù)集，可以看出它們涵蓋了廣泛的任務(wù)場景和用戶需求，能夠有效評估FLOWAGENT在不同場景下的表現(xiàn)。

實驗

在這一部分，研究團隊將詳細解析FLOWAGENT的實驗設(shè)置和結(jié)果分析，深入了解其性能和效果。

實驗設(shè)置

基線方法的選擇為了評估FLOWAGENT的性能，研究團隊選擇了ReAct作為基線方法進行對比。ReAct是一種利用思維和行動結(jié)合來做出決策的方法，將環(huán)境的反饋視為觀察，這屬于基于提示的方法類別。為了表示工作流，研究團隊選擇了三種格式：自然語言（NL）、代碼和流程圖，分別表示為ReActNL、ReActcode和ReActFC。為了確保公平比較，實驗中重用了FlowBench推薦的提示。

實現(xiàn)細節(jié) 在會話級評估中，研究團隊使用GPT-4o-mini進行用戶模擬。對于機器人，初步測試了兩個代表性模型系列：GPT系列和Qwen系列。研究表明，小模型不適合復雜工作流任務(wù)，因此選擇了GPT-4o和Qwen2-72B進行演示。在評估過程中，使用GPT-4-Turbo進行判斷，以確保評估的準確性和公正性。更多實現(xiàn)細節(jié)見附錄C.1。

工作流代理新突破：FlowAgent的合規(guī)性與靈活性解析-AI.x社區(qū)

圖5：不同模型指標比較的可視化

實驗結(jié)果

會話級實驗結(jié)果分析實驗結(jié)果表明，F(xiàn)LOWAGENT在任務(wù)合規(guī)性方面優(yōu)于其他三個基線方法。在會話級評估中，F(xiàn)LOWAGENT在任務(wù)完成、任務(wù)進度和工具使用性能等方面均表現(xiàn)出色，顯著優(yōu)于ReActNL、ReActcode和ReActFC。尤其是在處理超出工作流（OOW）場景時，F(xiàn)LOWAGENT表現(xiàn)出了更高的靈活性和魯棒性。在圖5(a)中，可以清晰地看到FLOWAGENT在不同設(shè)置下的任務(wù)進度指標，突出了其在OOW場景中的優(yōu)勢。

輪次級實驗結(jié)果分析在輪次級評估中，F(xiàn)LOWAGENT同樣表現(xiàn)出卓越的合規(guī)性和靈活性。Qwen2-72B的輪次級實驗結(jié)果顯示，F(xiàn)LOWAGENT框架在任務(wù)成功率、任務(wù)進度和工具使用性能等方面均取得了最佳成績。不僅在預定義工作流內(nèi)表現(xiàn)出色，在處理OOW場景時也展示了強大的適應(yīng)能力和靈活性。圖5(b)中，成功率指標的對比結(jié)果進一步驗證了FLOWAGENT的卓越性能。

消融實驗分析為了驗證控制器在FLOWAGENT框架中的重要性，研究團隊進行了消融實驗。在OOW設(shè)置中，實驗結(jié)果表明，移除決策后控制器Cpost或決策前控制器Cpre均會對模型性能產(chǎn)生負面影響，驗證了控制器在確保工作流合規(guī)性方面的關(guān)鍵作用。表5中的實驗結(jié)果顯示，控制器的存在顯著增強了模型的合規(guī)性和穩(wěn)定性，確保代理在復雜場景中的穩(wěn)步進展。

結(jié)論

研究團隊詳細探討基于大型語言模型（LLM）的工作流代理系統(tǒng)FLOWAGENT，通過引入程序描述語言（PDL）和一套控制器，F(xiàn)LOWAGENT在確保合規(guī)性的同時提高了系統(tǒng)的靈活性。PDL結(jié)合了自然語言的適應(yīng)性和代碼的精確性，使得工作流的表示更加靈活和精確。FLOWAGENT框架通過PDL驅(qū)動的控制器，有效地管理工作流代理的行為，確保了系統(tǒng)的合規(guī)性和靈活性。

實驗結(jié)果表明，F(xiàn)LOWAGENT在多個數(shù)據(jù)集上均表現(xiàn)出色，顯著優(yōu)于其他基線方法。在會話級和輪次級評估中，F(xiàn)LOWAGENT在任務(wù)成功率、任務(wù)進度和工具使用性能等方面均取得了最佳成績。特別是在處理超出工作流（OOW）場景時，F(xiàn)LOWAGENT展示了強大的適應(yīng)能力和靈活性。

此外，消融實驗驗證了控制器在確保工作流合規(guī)性方面的關(guān)鍵作用。無論是決策前控制器還是決策后控制器，其存在都顯著增強了模型的合規(guī)性和穩(wěn)定性，確保代理在復雜場景中的穩(wěn)步進展。

盡管FLOWAGENT在合規(guī)性和靈活性方面取得了顯著進展，但仍存在一些局限性。首先，目前的研究主要集中在手動構(gòu)建的工作流上，評估也僅限于這些人工定義的設(shè)置。未來的研究應(yīng)探索動態(tài)工作流合成，以適應(yīng)多變和復雜的用戶需求，而無需人工干預。

其次，盡管本研究使用模擬用戶交互評估了代理在OOW場景下的性能，但其現(xiàn)實世界的適用性仍需在更廣泛的真實用戶需求譜系中進行測試。未來的研究應(yīng)進一步豐富對話多樣性，并在真實用戶環(huán)境中驗證FLOWAGENT的性能和適應(yīng)能力。（END）

參考資料：https://arxiv.org/pdf/2502.14345

本文轉(zhuǎn)載自??獨角噬元獸??，作者： FlerkenS

標簽

FlowAgent

靈活性

NLU

已于2025-3-4 11:19:28修改

贊

回復