成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MACT:如何用多Agent框架思路實現表格問答

發布于 2025-1-14 12:10
瀏覽
0收藏

1. 表格問答的現狀

表格問答(TQA,Table Question Answering)是指依據表格形式的數據來回答問題。表格問答任務的任務也越來越復雜,要解決這些復雜任務,就得執行多個推理步驟(多步驟)或者運用不同的推理策略(多類別)。。

處理 TQA 中這些復雜實例的一種常見方法是規劃,生成詳細的逐步計劃并引導推理過程。該方向有兩種方法:

? 針對開源大型語言模型(LLMs)進行微調,但微調需要高質量的數據,通常難以獲取

? 使用閉源的商業 LLMs,閉源商業 LLMs 成本高

為了解決以上問題,作者提出了一個結合工具使用的多智能體協作框架(MACT,Multi-Agent Collaboration with Tool)。既不依賴閉源 LLMs,也無需微調。

2. 什么是MACT?

MACT是一個為 TQA 配備了一組工具的多智能體協作框架。如下圖所示,包含了四個主要模塊:內存、規劃智能體、編碼智能體、工具集。

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

MACT包括五個核心階段動作:動作生成、動作選擇、工具選擇/代碼創建、觀察計算以及內存狀態更新。

2.1 動作生成(Action Generation)

作者參考了ReAct方法,鑒于之前有研究表明生成動作時,一同生成想法能帶來性能的提升,所以作者采用了完整的ReAct方法:即想法、動作和觀察一起生成。

把一個動作定義為兩部分:意圖和指令。

例如,“檢索 [檢索法國和德國的出口數量]”。意圖是動作的目的,比如“檢索”就是從輸入表中提取信息。指令(用括號標記)詳細說明了意圖。

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

上表展示了框架中定義的六種意圖類型及其對應的指令示例。

? 檢索:執行從表中提取信息的所有操作,包括直接查詢、過濾和分組。

? 計算:需要計算、計數或比較的指令則由“計算”來處理。

? 搜索:為了滿足表或文本上下文中不存在的外部(事實性)知識的需求,增加了“搜索”意圖。

? 讀取:涵蓋了表-文本問答中對上下文推理的需求,指的是從作為TQA實例提供的文本中提取信息的指令。

? 完成:規劃智能體停止生成更多動作,并結束迭代執行,提供相應的指令中的最終答案。

? 詢問:基于規劃智能體的內部知識來檢索答案.

2.2 動作選擇(Action Selection)

運用選擇函數從動作集合中挑選最有潛力的動作。選擇函數采用了自洽性(self-consistency),從采樣動作集合中輸出最頻繁的動作。若出現平局,則選擇最先采樣的那個最頻繁動作。

2.3 工具選擇與使用

為了滿足【搜索】、【計算】、【檢索】這些意圖,作者引入了一組工具:Wiki百科搜索工具、計算器工具、Python代碼工具。

? Wiki百科搜索工具:維基百科搜索API,接收指令中指定的目標實體,并返回相應維基百科條目的第一段。

? 計算器工具:由Python解釋器驅動,接受生成的公式,并輸出答案。“計算”的指令也可以是文本描述,比如“計算表中每個國家的平均獎牌數量”。

? Python代碼工具:【檢索】意圖由Python代碼工具完成,根據指令生成的Python代碼檢索表中的目標單元格,返回執行結果。

對于“讀取”“詢問”和“完成”,不使用工具。

3. 效果評估

對 MACT 在四個 TQA 基準上的性能與 SoTA TQA 系統進行了對比評估。

3.1 與其他TQA模型(框架)相比

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

如上圖所示,當GPT-3.5作為底層模型時,MACT超越了所有的TQA模型(除在 WTQ 上的 Mix-SC)。表明與單代理 TQA 模型相比,代理策略是有效的。

猜測MACT與 Mix-SC 之間的性能差距源于 Mix-SC 中特定于數據的表清理和答案格式控制。相比之下,MACT 不包含任何特定于數據集的預處理或后處理步驟,從而能普遍適用于任何數據集。

MACT 在各個數據集中都優于各種開源 LLM,證明了智能體的有效性。

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

上表還給出了使用不同模型作為不同智能體部分的MACT的結果。

比如:MACT (Qw + CL)是指 Qwen 作為規劃代理,CodeLLaMA 作為編碼代理。

MACT (Qw + CL)比單獨使用 Qwen 和 CodeLLaMA 獲得了更高的 EM 分數,證明使用多個智能體進行規劃和編碼的有效性。

MACT (Qw + CL)在所有數據集中平均比 _SC(Qw + CL)高出約 6 個 EM 點,凸顯了我們的協作技術相對于簡單采用兩個獨立代理的最頻繁預測的優越性。我們還發現,擁有用于代碼生成的專家編碼代理(MACT (Qw + Qw)與 MACT (Qw + CL))顯著提高了性能。

3.2 與微調的TQA模型相比

MACT 在數據集之間的泛化能力優于微調的 TQA 系統。

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

上表展示了與先前微調的 TQA 模型進行了比較。通常,微調模型在用于微調的數據集上的性能相當高,但在其他數據集上測試時 EM 會大幅下降。

相比之下,MACT 不使用微調模型,因此能夠應用于任何具有良好泛化性能的數據集。當使用 LlaMA-7b 作為規劃代理時,MACT 展現出了與 Protrix 相當的結果,盡管它未進行微調。使用更好的規劃代理會帶來更好的結果。這也體現了 MACT 在骨干模型方面的穩健性。

3.3 MACT調用LLM次數對比

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

上表展示了MACT與其他方法調用LLM次數對比。對于 Binder 和 Dater,無論問題復雜程度如何,SC 都執行固定次數。導致每個實例的提示數量很多,因而效率低下。

相比之下,MACT 在生成方面具有靈活性,因為迭代次數取決于問題的復雜性。例如,對于 WTQ,大多數問題可以在三步內解決,使得每個實例最多總共提示 25 次。如果結合效率優化模塊,這可能節省多達三分之一的迭代,每個實例的生成總數甚至更低(約 15 次),使 MACT 在效率方面與其他方法相當。MACT 的迭代性質可能導致更高的生成上限。然而,它也能處理更復雜的問題,使該方法更貼合現實生活的需求。

3.4 多智能體協作與工具使用的效果

通過三種情形展開消融研究,探究 MACT 中專業智能體和工具使用的有效性。

MACT:如何用多Agent框架思路實現表格問答-AI.x社區圖片

上表結果表明,工具和編碼工具均對框架性能有所貢獻。然而,它們對最終性能的貢獻各異。

比如,去除搜索工具對結果幾乎無影響,而進一步去除編碼代理和 Python 解釋器時,性能大幅下降。或許是由于工具和編碼代理的使用頻率所致。

發現搜索工具幾乎未被使用,而編碼代理在幾乎每次查詢中都會被調用。可能由于維基百科是 LLM 常見的預訓練語料庫,多數信息可能已被編碼。不過,鑒于 LLM 已知會出現幻覺且編碼知識可能未及時更新,搜索工具仍可能有所幫助。

消融操作對 WTQ 和 TAT 的影響大于 CRT 和 SCITAB。可能歸因于數據集特征:CRT 包含眾多是非問題,SCITAB 由三元分類數據集轉換而來。因此,在諸如 WTQ 和 TAT 這類答案分布更豐富的數據集上,猜測正確最終答案的幾率高于前者。通過評估 CRT 中除是非答案之外的實例,發現當消融工具和編碼代理時,性能下降 8.23 。

3.5 錯誤分析

從每個數據集中隨機抽取 MACT 失敗的 50 個實例并進行錯誤分析。

? 約一半的錯誤源自編碼代理生成的無效或錯誤代碼。要么是未能理解指令從而生成錯誤代碼,要么因復雜的表數據類型導致代碼執行不成功。這表明表預處理的重要性。

? 第二種錯誤類型可歸因于評估。發現約三分之一的失敗源于嚴格的評估指標(精確匹配準確率)。這對 TAT 數據集上 MACT 的性能影響最大,因為其答案為長文本字符串。

? 其余錯誤情況在很大程度上可歸咎于規劃代理的失敗。意味著規劃代理未能正確分解問題。

4. 局限性

? 由于具備多表復雜推理的數據集稀缺,MACT 主要在單表設置下進行評估。雖然該框架通過在輸入中連接多個表能夠輕松擴展以處理多表情況,但在多表設置中的效果尚不明確。

? 僅在英語語境中研究 TQA,然而存在眾多多語言 TQA 基準和挑戰。

本文轉載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧洲中文日韩 | 欧美日韩一卡二卡 | 色接久久| 91麻豆精品一区二区三区 | 九色在线视频 | 亚洲激情一区二区三区 | 欧美成人a| 激情毛片 | 欧美日韩久久精品 | 一级视频黄色 | 亚洲性爰 | 粉嫩一区二区三区四区公司1 | 99精品视频免费观看 | 国产精品日韩欧美一区二区三区 | 99精品欧美一区二区蜜桃免费 | 中文字幕日韩欧美一区二区三区 | 成人精品一区二区 | 欧美一卡二卡在线 | 亚洲高清视频在线观看 | 亚洲一区二区av在线 | 色综合天天天天做夜夜夜夜做 | 成人在线精品 | 精品欧美一区二区三区久久久 | 欧美一级久久精品 | 色播久久 | 成人精品网| 在线激情视频 | 亚洲精品成人 | 在线视频一区二区三区 | 亚洲精品高清视频 | 久久久国产一区二区三区 | 久久久久久亚洲精品 | 二区三区视频 | 国产精品久久久久久久久久久久久久 | 日韩三级 | 亚洲成人一区 | 亚洲精品视频一区 | 国产超碰人人爽人人做人人爱 | 欧美日韩在线国产 | 日本精品免费在线观看 | 久久精品国产久精国产 |