成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

當prompt策略遇上分治算法,南加大、微軟讓大模型煉成「火眼金睛」

人工智能 新聞
為了使 LLM 更好地分辨并盡可能避免這種中間錯誤,來自南加州大學、微軟的研究者提出了一種基于分治算法的提示策略。這種策略利用分治程序來引導 LLM。

近年來,大語言模型(LLMs)由于其通用的問題處理能力而引起了大量的關注。現有研究表明,適當的提示設計(prompt enginerring),例如思維鏈(Chain-of-Thoughts),可以解鎖 LLM 在不同領域的強大能力。

然而,在處理涉及重復子任務和 / 或含有欺騙性內容的任務(例如算術計算和段落級別長度的虛假新聞檢測)時,現有的提示策略要么受限于表達能力不足,要么會受到幻覺引發的中間錯誤的影響。

為了使 LLM 更好地分辨并盡可能避免這種中間錯誤,來自南加州大學、微軟的研究者提出了一種基于分治算法的提示策略。這種策略利用分治程序來引導 LLM。

論文地址:https://arxiv.org/pdf/2402.05359.pdf

具體來講,我們將一個大任務的解決過程解耦為三個子過程:子問題劃分、子問題求解以及子問題合并。理論分析表明,我們的策略可以賦予 LLM 超越固定深度 Transformer 的表達能力。實驗表明,我們提出的方法在受到中間錯誤和欺騙性內容困擾的任務中(例如大整數乘法、幻覺檢測和錯誤信息檢測)可以比經典的提示策略獲得更好的性能。

太長不看版:我們發現在應用 LLM 處理較長的問題輸入時,把輸入拆分然后分而治之可以取得更好的效果。我們從理論上解釋了這一現象并實驗角度進行了驗證。

研究動機

本文的研究動機來自于實驗中觀察到的有趣現象。具體來說,我們發現對于涉及重復子任務和 / 或含有欺騙性內容的任務(如段落級別長度的虛假新聞檢測),對輸入進行拆分可以提升模型對于錯誤信息的分辨能力。下圖展示了一個具體的例子。

在這個例子當中,我們調用大語言模型來評估一段總結性文本是否與完整的新聞報道存在事實性沖突。

在這個任務中,我們嘗試了兩種策略:耦合策略和分治策略。在耦合策略下,我們直接為模型提供完整的新聞報道和整段總結性文本,然后要求模型評估二者是否存在沖突。模型錯誤地認為二者不存在沖突,并且忽視了我們標紅的沖突點(新聞中明確表示調查人員否定了錄像的存在,然而總結中的第一句話表示錄像已被成功復原)。

而當我們采取分治策略,也就是簡單地將總結性文本拆分成多句話,然后分別對每句話進行評估,模型成功地識別出了沖突。

這個例子向我們展示了:對長輸入進行劃分可以幫助我們更好地解鎖模型的能力。基于這一點,我們提出利用分治程序來引導 LLM,從而賦予模型更強的分辨力。

基于分治的提示(prompting)策略

我們提出使用分治(Divide-and-Conquer, DaC)程序來引導 LLM。該程序包括三個不同的子過程:子問題劃分、子問題求解以及子解答合并

在子問題劃分,我們提示 LLM 將任務分解為一系列具有較小規模的并行同質子任務(例如將長段落分解為句子)。這里的并行原則保證模型可以分別處理這些子任務而不依賴于某些特定的求解順序。也因此,一個子任務的解答不會依賴于其它子任務的解答的正確性,這增強了模型對于中間錯誤的魯棒性,使模型獲得更強的分辨力。

之后,在子問題求解階段,我們提示 LLM 分別求解每個子任務。

最后,在子解答合并階段,我們提示 LLM 將每個子任務的答案組合起來并獲得最終答案。在這個過程中,所有三個階段的推理過程都被隔離開來以避免干擾。它們都由一個程序而不是 LLM 來引導,以避免幻覺或來自輸入上下文的欺騙。

在下面的示意圖中,我們將自己的方法和目前流行的提示策略進行了對比。

為了解決不同規模的任務,我們提出了兩種變體:單級分治策略 (Single-Level Divide-and-Conquer) 多級分治策略 (Multi-Level Divide-and-Conquer)。單級策略中,我們只對輸入進行一次劃分,然后就開始進行求解。在多級策略中,我們可以遞歸調用分治程序,從而把求解過程展開成一棵多層的樹。

圖片

理論分析

我們通過理論分析展示了為什么分治策略能夠提升大語言模型的分辨力。

此前的工作(Feng et al 2023, Merrill & Sabharwal 2023)已經證明,現有的通用大語言模型所普遍采用的固定深度與對數精度的預訓練 Transformer,存在表達能力上的限制。

具體來說,假設 NC1 類問題嚴格難于 TC0 類時(TC0 和 NC1 是并行計算理論中的兩大類問題,其關系類似 P 與 NP),那么這些 Transformer 模型在處理 NC1 完全問題時,其模型寬度需要以超多項式(如指數)級別的速度隨問題規模增長。NC1 完全問題包含了很多常見的問題,比如兩色 2 叉子樹匹配問題。

而我們此前提到的評估兩段文本是否存在事實性沖突的問題,恰好可以被視為判斷總結文本所對應的語義樹是否匹配新聞材料的語義樹的一棵子樹。因此,當總結性文本足夠長時,大語言模型會面臨表達能力不足的問題。我們的理論分析嚴格證明了,在基于分治的提示策略下,存在一個寬度和深度均為常數的 Transformer,可以在 log(n)的時間復雜度下解決任意規模的兩色 2 叉子樹匹配問題

實驗結果

我們考慮了三個任務:大整數乘法、幻覺檢測、新聞驗證。我們基于 GPT-3.5-Turbo 和 GPT-4 進行評估。對于大整數乘法,此前的工作已經證明,ChatGPT 難以正確計算 4 位以上的整數乘法問題。因此我們使用 5 位乘 5 位的乘法來驗證我們的提示策略的有效性。

結果如下圖所示,可以看出,無論是準確率指標還是編輯距離指標,我們的方法相對其他 baseline 都具有明顯優勢。

對于幻覺檢測,我們采用 HaluEval 數據集中的 Summarization Hallucination Detection 子集。對于該子集,模型需要根據一段新聞材料判斷一段總結性文本是否包含幻覺。我們將總結性文本劃分為單句并分別進行檢測。

檢測結果如下,可以看到,我們的方法相對 baseline 更好的平衡了精確度和召回率,從而取得了更好的準確率和 F1 score。

圖片

對于新聞驗證,我們基于 SciFact 數據集構造了一個段落驗證數據集。對于該數據集,模型需要根據一篇學術論文中的段落判斷一段新聞報道是真新聞還是假新聞。我們將新聞報道劃分為單句并分別進行檢測。

檢測結果如下,可以看到,我們的方法相對 baseline 取得了更好的準確率和 G-Mean score。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-03-08 09:27:33

2013-01-23 09:12:13

云存儲服務云存儲提供商選擇云存儲

2017-06-23 17:18:56

互聯網

2021-03-19 11:05:50

Linux目錄命令

2020-05-26 12:52:06

Windows 10網絡故障

2017-10-17 09:49:06

2023-09-06 07:11:41

大模型人工智能

2018-11-28 14:59:56

云計算

2010-11-17 13:35:50

BUG

2020-07-08 13:26:47

Python

2024-08-06 12:00:00

監督學習視覺

2025-03-17 09:40:00

2011-12-20 09:23:09

2018-11-09 13:36:10

企業上云華為云

2020-10-27 19:30:37

人工智能AI火星新隕石

2022-02-24 11:00:12

安全美國中國

2010-11-17 15:43:55

軟件測試Bug

2011-11-26 12:09:23

激光打印機推薦

2013-04-25 10:22:48

2012-05-16 09:19:27

云電視云計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线āv视频 | 国产高清在线 | 婷婷开心激情综合五月天 | 国产一区二区三区免费 | 亚洲免费av一区 | 日韩三级精品 | 91亚洲国产亚洲国产 | 天天操人人干 | 亚洲国产精品久久久久婷婷老年 | 在线日韩在线 | 久久另类视频 | 黄色网址免费在线观看 | 国产欧美日韩综合精品一区二区 | 国产a视频 | 欧美日韩一| 免费色网址 | 黄a网 | 国产精品一区久久久久 | 日韩精品一区二区三区中文在线 | 性视频一区 | 91社区在线观看高清 | 蜜月aⅴ免费一区二区三区 99re在线视频 | 狠狠影院 | 岛国av免费在线观看 | 久久久免费 | 欧美成人精品 | 玖玖在线免费视频 | 国产精品69毛片高清亚洲 | 99精品99 | 青青草av | 在线播放一区二区三区 | 成年人在线视频 | 亚洲女优在线播放 | 国产一级久久久久 | 久久久久久黄 | 国产不卡视频在线 | 少妇黄色| 色香蕉在线 | 午夜激情网 | 亚洲在线免费 | 国产精品久久久久久久免费大片 |