成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="wo00s"><dl id="wo00s"></dl></li>

<button id="wo00s"><tbody id="wo00s"></tbody></button>

<rt id="wo00s"></rt>

<code id="wo00s"><tr id="wo00s"></tr></code>

<code id="wo00s"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

大語言模型在不同自然語言處理任務中的提示工程方法綜述精華

發布于 2024-7-29 00:53

瀏覽

0收藏

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

一、結論寫在前面?

論文標題：A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks

論文鏈接：??https://arxiv.org/pdf/2407.12994??

大型語言模型（LLMs）在眾多不同的自然語言處理（NLP）任務上展現出卓越的性能。提示工程在增強LLMs已有的能力方面發揮著關鍵作用，以在各種NLP任務上實現顯著的性能提升。提示工程需要編寫稱為提示的自然語言指令，以結構化的方式從LLMs中引出知識。與先前的最先進（SoTA）模型不同，提示工程不需要對給定的NLP任務進行廣泛的參數重新訓練或微調，因此僅依賴于LLMs嵌入的知識。

此外，LLM愛好者可以通過基本的自然語言對話交流或提示工程智能地提取LLMs的知識，使得越來越多沒有深厚數學機器學習背景的人也能實驗使用LLMs。隨著提示工程在過去兩年中日益流行，研究人員圍繞設計提示提出了多種工程技術，以提高從LLMs中提取信息的準確性。

論文對44篇研究論文進行了深入調查，這些論文討論了39種提示策略，涵蓋了29個不同的NLP任務。論文通過分類圖直觀地展示了這一點。論文嘗試將不同數據集標準化分類為29個NLP任務，并討論了近期提示技術在這些任務上的整體影響，同時列出了每個數據集的潛在SoTA提示方法。

二、論文的簡單介紹

2.1 論文的背景

隨著大型語言模型（LLMs）的引入，人工智能取得了顯著的進步。LLMs 在包含數百萬乃至數十億個標記的大量文本語料庫上進行訓練。研究表明，隨著模型參數數量的增加，機器學習模型的性能會提升，這一現象在 LLMs 中同樣得到了驗證。它們在眾多 NLP 任務上取得了前所未有的性能，如 Chang 等人所示（2023），因此引起了學術界和包括醫療、法律、金融等多個行業的廣泛關注。當前關于 LLMs 的研究重點是通過提示而非僅限于下一個標記預測來探討其推理能力，這開啟了一個圍繞提示工程的新研究領域。

提示工程是指創建自然語言指令或提示，以有組織的方式從 LLMs 中提取知識的過程。與早期的傳統模型相比，提示工程僅依賴于 LLMs 中嵌入的知識，不需要根據底層 NLP 任務進行大量的參數重新訓練或微調。理解模型參數中嵌入的真實世界知識超出了人類的能力范圍，因此這一新的提示工程領域引起了廣泛關注，因為它允許研究人員與 LLMs 之間通過自然語言交流來實現底層 NLP 任務的目標。

論文列舉了多種提示策略，并根據它們所應用的不同自然語言處理（NLP）任務進行分類。論文提供了一個分類圖，將針對不同NLP任務嘗試的提示技術制成表格，討論所采用的大型語言模型（LLMs），并列出每個數據集的潛在最先進（SoTA）方法。作為本次調研的一部分，論文總共回顧和分析了44篇研究論文，其中大部分在過去兩年內發表，涵蓋了39種提示技術應用于29個不同的NLP任務。關于提示工程的系統性調研并不多見。Sahoo等人（2024年）基于應用對29篇提示技術論文進行了調研。這種分類非常寬泛，因為單個應用可以包含眾多NLP任務。例如，他們討論的應用之一是推理和邏輯，這可以包括常識推理、數學問題解決、多跳推理等多種NLP任務。這與論文的方法不同，論文基于NLP任務對提示策略進行了更細粒度的分類。Edemacu和Wu（2024年）概述了隱私保護提示方法，因此專注于提示工程的一個相對較小的子領域。Chen等人（2023年）將提示策略的討論限制在9-10種方法，并且也沒有根據NLP任務進行分類。

2.2 提示工程技術

論文簡要介紹了不同的提示方法以及它們如何隨著發布時間改進現有性能。需要注意的是，以下大多數提示策略已在兩種不同的變體或設置中進行了實驗，如果不是更多的話。這些變體包括零樣本和少樣本。某些提示技術可能本質上存在于零樣本或少樣本變體中，可能不存在其他變體。在零樣本設置中，Radford等人（2019年）沒有涉及訓練數據，LLM通過提示指令執行任務，完全依賴于其在預訓練階段學到的嵌入知識。另一方面，在少樣本變體中，Brown等人（2020年）提供了少量訓練數據點以及基于任務的提示指令，以更好地理解任務。來自各種提示工程工作的結果顯示，少樣本變體有助于提高性能，但這需要精心準備少樣本數據點，因為LLM可能對精心策劃的少樣本數據點表現出無法解釋的偏見。

2.2.1 基礎/標準/樸素提示

基礎提示指的是直接向大型語言模型（LLM）提出查詢，而不對其進行任何工程優化以提高LLM性能的方法，這是大多數提示策略的核心目標?；A提示在不同研究論文中也被稱為標準或樸素提示。

2.2.2 思維鏈（COT）

在這種提示策略中，Wei等人（2022）基于人類如何將復雜問題分解為更簡單的子問題，然后再得出復雜問題的最終解決方案的想法。類似地，作者研究了LLM通過產生一系列中間推理步驟，即思維鏈，來增強復雜推理能力的方式。結果顯示，與基礎提示相比，思維鏈提示有顯著改進，最大差異在數學問題解決任務中約為39%，在常識推理任務中約為26%。這項工作為提示工程領域開辟了新的研究方向。

2.2.3 自一致性

自一致性（Wang et al. 2022）提示技術基于一個直覺：復雜推理問題可以通過多種方式解決，因此可以通過不同的推理路徑達到正確答案。自一致性采用了一種新穎的解碼策略，不同于思維鏈使用的貪婪策略，并包含三個重要步驟。第一步要求使用思維鏈提示LLM，第二步從LLM的解碼器中采樣多樣化的推理路徑，最后一步涉及在多個推理路徑中選擇最一致的答案。與思維鏈相比，自一致性在數學問題解決任務中平均提高了11個百分點，在常識推理任務中提高了3個百分點，在多跳推理任務中提高了6%。

2.2.4 集成細化（ER）

這種提示方法已在Singhal等人（2023）中討論過。它建立在CoT和自一致性（Self-Consistency）的基礎上。ER包含兩個階段。首先，給定一個少樣本CoT提示和一個查詢，通過調整其溫度，LLM生成多個推理鏈。每個推理鏈包含對查詢的推理和答案。接下來，LLM基于原始提示、查詢和前一階段生成的拼接推理鏈，生成更好的解釋和答案。這一第二階段會多次進行，然后通過多數投票機制在這些第二階段生成的答案中選出最終答案，正如自一致性中的做法。ER在多個屬于無上下文問答任務的數據集上表現優于CoT和自一致性。

2.2.5 自動思維鏈（Auto-CoT）

在這項工作中，Zhang等人（2022）解決了少樣本CoT或手動CoT面臨的問題，即需要精心挑選高質量的訓練數據點。Auto-CoT包含兩個主要步驟。第一步是將給定數據集的查詢分為幾個簇。第二步是從每個簇中選擇一個代表性查詢，并使用零樣本CoT生成其對應的推理鏈。作者聲稱，Auto-CoT在數學問題解決、多跳推理和常識推理任務上的表現要么優于要么與少樣本CoT相當。這表明，對于少樣本或手動CoT，可以省去訓練數據點的挑選步驟。

2.2.6 復雜CoT

Fu等人（2022）引入了一種新的提示策略，旨在選擇復雜的數據點提示而非簡單的。數據點的復雜性在這里由涉及的推理步驟數量定義。作者假設，如果使用復雜數據點作為上下文訓練示例，LLM的推理性能可以提高，因為它們已經包含了簡單的數據點。復雜CoT除了使用復雜數據點作為訓練示例外，另一個重要方面是在解碼過程中，類似于自一致性，從N個采樣的推理鏈中，選擇最復雜的K條鏈中的多數答案作為最終答案。此外，本文還介紹了一種基線提示方法，稱為隨機CoT（Random CoT）。在隨機CoT中，數據點是隨機采樣的，不考慮其復雜性。復雜CoT在數學問題解決、常識推理、基于表格的數學問題解決和多跳推理等任務的多個數據集上，平均提高了5.39%的準確率，最高可達18%的準確率提升。

2.2.7 思維程序 (Program-of-Thoughts, POT)

Chen 等人 (2022a) 在 CoT 的基礎上構建了 POT，與 CoT 使用 LLM 進行推理和計算不同，POT 生成 Python 程序并將計算部分委托給 Python 解釋器。該工作認為減少 LLM 的責任使其在數值推理方面更加準確。POT 在數學問題解決、基于表格的數學問題解決、上下文問答和對話上下文問答任務中平均比 CoT 提高了約 12% 的性能。

2.2.8 從易到難 (Least-to-Most)

Least-to-Most Zhou 等人 (2022) 提示技術試圖解決 CoT 無法準確解決比提示中示例更難的問題。它包含兩個階段。首先，LLM 被提示將給定問題分解為子問題。接下來，LLM 被提示按順序解決這些子問題。任何子問題的答案都依賴于前一個子問題的答案。作者表明，Least-to-Most 提示在常識推理、基于語言的任務完成、數學問題解決和上下文問答任務中顯著優于 CoT 和基本提示方法。

2.2.9 符號鏈 (Chain-of-Symbol, COS)

CoS Hu 等人 (2023) 建立在 CoT 的思想上。在傳統的 CoT 中，推理步驟的中間鏈以自然語言表示。雖然這種方法在許多情況下取得了顯著成果，但它也可能包含不正確或冗余的信息。該工作的作者提出假設，空間描述在自然語言中難以表達，因此 LLM 難以理解。相反，使用符號在單詞序列中表達這些關系可能是 LLM 的更好表示形式。CoS 在空間問答任務中實現了高達 60.89% 的準確性提升。

2.2.10 結構化思維鏈（SCoT）

SCoT（Li et al., 2023b）的直覺在于，使用序列、分支和循環等程序結構來組織中間推理步驟，比傳統CoT中使用自然語言表示中間推理步驟更能提高代碼生成的準確性。作者聲稱，前者更接近人類開發者的思維過程，這一點已通過最終結果得到證實，SCoT在代碼生成任務上的表現優于CoT高達13.79%。

2.2.11 計劃與解決（PS）

Wang et al. (2023) 討論并試圖解決CoT的三個缺點：計算錯誤、遺漏步驟錯誤和語義誤解錯誤。PS包含兩個部分，第一部分需要制定一個計劃，將整個問題分解為較小的子問題，第二部分則需要根據計劃執行這些子問題。一個改進版的PS稱為PS+，增加了更詳細的指令，有助于提高推理步驟的質量。PS提示方法在零樣本設置下的數學問題解決任務中，幾乎所有數據集的準確率都比CoT提高了至少5%。同樣，在常識推理任務中，它在零樣本設置下始終優于CoT至少5個百分點，而在多跳推理任務中，其準確率提高了約2%。

2.2.12 數學提示器（MathPrompter）

Imani et al. (2023) 試圖解決CoT在數學問題解決任務中的兩個關鍵問題：（1）CoT解決問題時步驟的有效性不足；（2）LLM對其預測的自信程度。MathPrompter提示策略總共包含4個步驟。（I）給定一個查詢，第一步要求為查詢生成一個代數表達式，用變量替換數值。（II）接下來，提示LLM通過推導代數表達式或編寫Python函數來解析地解決查詢。（III）第三步，通過為變量賦不同的值來解決步驟（I）中的查詢。（IV）如果在N次迭代中（II）中的解是正確的，則最終用原始查詢值替換變量并計算答案。如果不是，則重復步驟（II）、（III）和（IV）。MathPrompter能夠將數學問題解決任務所屬數據集的性能從78.7%提升到92.5%。

2.2.13 對比鏈式推理/對比自一致性

Chia等人（2023）聲稱，對比鏈式推理（Contrastive CoT）或對比自一致性（Contrastive Self Consistency）是對鏈式推理（CoT）或自一致性（Self-Consistency）的一般性增強。這種提示方法的靈感來源于人類如何從正面和負面示例中學習。類似地，在這種提示技術中，通過提供正面和負面示例來增強大語言模型（LLM）的推理能力。對比鏈式推理在數學問題解決任務中平均能夠比傳統鏈式推理提升10%的性能。同樣，對比自一致性在數學問題解決任務中能夠比傳統自一致性提升超過15%的性能。對于多跳推理任務，對比鏈式推理和對比自一致性相較于其傳統版本都有超過10%的提升。

2.2.14 聯合相同/不同參數自一致性/鏈式推理（Fed-SP/DP-SC/CoT）

Liu等人（2023）引入的這種提示方法基于通過使用同義眾包查詢來提高LLM推理能力的核心思想。這種方法有兩種略有不同的變體。第一種是Fed-SP-SC，其中眾包查詢是原始查詢的改寫版本，但參數相同。這里的參數可以指數學問題解決任務數據點中的數值。對于Fed-SP-SC，首先直接生成答案，然后在其上應用自一致性。另一種是Fed-DP-CoT。在Fed-DP-CoT中，LLM首先生成不同查詢的答案，然后通過形成鏈式推理來聯合它們，為LLM提供提示。這些方法在數學問題解決任務中的結果顯示，它們能夠比傳統鏈式推理至少提升10%，甚至高達20%。

2.2.15類比推理

Yasunaga等人（2023）的工作受到心理學中類比推理概念的啟發，即人們利用相關的先前經驗來解決新問題。在LLM領域，作者首先提示它們生成與原始問題類似的示例，然后解決這些示例，最后回答原始問題。結果顯示，類比推理在數學問題解決、代碼生成、邏輯推理和常識推理任務中相較于鏈式推理能夠實現平均4%的準確性提升。

2.2.16 合成提示（Synthetic Prompting）

Shao等人（2023）提出了一種利用大型語言模型（LLMs）生成合成示例的合成提示方法，這些合成示例被增廣到現有的手工制作示例中，類似于傳統的小樣本學習設置。這種提示方法包括兩個步驟：（1）后向步驟，LLM根據自生成的推理鏈合成查詢；（2）前向步驟，LLM為合成的查詢生成推理鏈，從而使推理鏈更加準確。最后，為了選擇最佳示例，該工作使用簇內復雜度，并在推理過程中使用具有最長推理鏈的最復雜示例。實驗結果顯示，在不同的數學問題解決、常識推理和邏輯推理任務數據集上，合成提示實現了高達15.69%的絕對增益。

2.2.17 思維樹（Tree-of-Thoughts, ToT）

Yao等人（2024）提出的ToT提示技術源自于任何類型的問題解決都需要通過一個組合空間進行搜索，該空間可以表示為一棵樹，其中每個節點代表一個部分解，每條分支對應一個修改該部分解的操作符。現在，選擇哪條分支的決定由啟發式方法確定，這些方法有助于導航問題空間并引導問題解決者向解決方案前進。基于這一思想，作者提出了ToT，它主動維護一個思維樹，其中每個思維是一個連貫的語言序列，作為解決問題的中介推理步驟。該框架允許LLMs在嘗試解決問題時評估由思維生成的進展。ToT進一步結合了搜索技術，如廣度優先或深度優先搜索，以及模型生成和評估思維的能力。在數學問題解決任務上，ToT的成功率比CoT高出65%，在不同的邏輯推理任務數據集上，成功率高出約40%。在自由回答任務上，ToT的連貫性得分為7.56，而CoT平均僅為6.93。

2.2.18 邏輯思維 (LoT)

在這項工作中，Zhao 等人 (2023b) 研究了使用邏輯等價性來提高大型語言模型（LLM）的零樣本推理能力。除了允許 LLM 逐步推理外，LoT 還允許 LLM 根據歸謬法原則的指導逐步驗證，并在必要時修正推理鏈以確保有效推理。LoT 在數學問題解決任務中最多能超過 CoT 3.7\%，常識推理任務中最多能超過 16.2\%，邏輯推理任務中最多能超過 2.5\%，因果推理任務中最多能超過 15.8\%，以及社交推理任務中最多能超過 10\% 的準確率。

2.2.19 助產術提示 (Maieutic Prompting)

通過使用深度遞歸推理來引出各種假設的溯因解釋，Jung 等人 (2022) 鼓勵 LLM 通過協作消除相互矛盾的替代方案來產生一致的響應。助產術提示的生成過程導出一個生成的命題樹結構，其中一個命題為另一個命題的正確性建立了邏輯基礎。最后，為了推斷原始查詢的答案，測量 LLM 對每個命題的信任程度以及助產術樹中命題之間的邏輯聯系。在常識推理任務上，助產術提示的結果顯示，與基本提示、CoT、自一致性和 GKP (Liu et al., 2021) 相比，它能實現高達 20\% 的更好準確率，同時與監督模型競爭。

2.2.20 驗證與編輯 (VE)

Zhao 等人 (2023a) 專注于開發一種技術，該技術可以對 CoT 生成的推理鏈進行后編輯，以產生更符合事實的輸出。該方法包括三個階段：(1) 決定何時編輯階段，作者使用自一致性來發現不確定的輸出；(2) 如何編輯理由階段，作者通過從外部知識源搜索支持事實來編輯不確定輸出的 CoT 推理鏈；(3) 推理階段，使用前一階段的編輯理由來得出最終答案。VE 在多跳推理任務中最多能超過 CoT、自一致性和基本提示 10\%，在真實性任務中最多能超過 2\%。

2.2.21 REASON + ACT (REACT)

Yao等人（2022b）提出了ReAct，它結合了推理和行動，利用LLMs解決多樣化的語言推理和決策任務。為了使模型能夠進行動態推理，構建和修改高級行動計劃（推理以行動），ReAct促使LLMs以交錯方式生成與任務相關的口頭推理軌跡和行動。Yao等人（2022b）還討論了另一種類似于ReAct的提示方法Act，該方法基本上移除了ReAct軌跡中的思考或推理，但在所有討論的任務中表現均不如ReAct。在多跳推理和真實性任務中，ReAct的表現優于基本提示，同時與CoT相競爭。當ReAct與CoT或自一致性結合時，其結果優于CoT。在基于語言的任務完成任務中，ReAct在不同數據集上的成功率分別提高了超過10%，優于強化學習方法。

2.2.22 ACTIVE-PROMPT

Diao等人（2023）提出了Active-Prompt，幫助LLMs通過識別最相關的數據點作為示例，在少樣本設置下適應不同任務。Active-Prompt是一個四步技術。第一步，LLM對訓練集中的每個查詢進行k次提示，生成k個可能的答案及其相應的推理鏈。第二步要求根據第一步生成的答案計算不確定性度量。第三步，選擇前n個最不確定的查詢，并由人類進行標注。最后一步，使用新的標注示例對測試數據進行少樣本提示。作者還介紹了一種名為Random CoT的Active-Prompt變體，其中在步驟3中，前n個查詢是隨機選擇的，而不是基于不確定性度量。結果顯示，Active-Prompt在數學問題解決、常識推理、多跳推理、常識推理任務等多個數據集上，均能獲得比自一致性、CoT、Auto-CoT和Random CoT更好的結果。

2.2.23 思維鏈（THOT）

Zhou等人（2023）提出了一種專注于處理長而混亂上下文的提示方法。其基于這樣一種思想：人們在處理大量信息時會保留一種連續的思維流，從而能夠選擇性地提取相關數據并摒棄無關數據。在文檔各部分之間保持這種注意力的平衡對于準確解讀和回應所提供的信息至關重要。思維鏈（THOT）包括兩個步驟。第一步要求大語言模型（LLM）分析并總結上下文的不同部分。在第二步中，LLM被提示根據第一步的輸出回答所提出的查詢。在無上下文問答任務中，思維鏈能夠通過實現約0.56的精確匹配分數，超越鏈式思考（CoT）和基本提示技術。在對話系統任務中，思維鏈再次以3.8的平均分超越其他討論的提示技術，獲得最高分。

2.2.24 隱式檢索增強生成（IMPLICIT RAG）

與傳統的RAG（Lewis et al., 2020）不同，隱式RAG（Vatsal & Singh, 2024）：Vatsal等人（2024）要求LLM自身從給定上下文中檢索重要片段或部分，然后繼續回答所提出的查詢。這一技術需要調整兩個超參數。第一個是提取的節數，第二個是每節中的單詞數。隱式RAG在Vatsal等人（2024）的病人病例報告數據集上的上下文問答任務中取得了最先進（SoTA）的結果，而在Vatsal & Singh（2024）的生物醫學上下文問答任務數據集中，取得了最先進或接近最先進的結果。

2.2.25 系統2注意力（S2A）

大語言模型（LLM）在面對無關上下文時往往做出錯誤判斷。Weston & Sukhbaatar（2023）嘗試通過兩步提示策略來解決這一問題。第一步指示LLM重新生成給定上下文，使得重新生成的版本不包含任何可能對輸出產生不利影響的無關部分。第二步則指示LLM使用第一步中重新生成的上下文來產生最終響應。結果顯示，S2A能夠在不同真實性任務數據集上超越基本、鏈式思考以及指導性提示（Shi et al., 2023）。

2.2.26 指令提示

指令提示（Shi et al., 2023）再次圍繞與S2A相同的理念展開，旨在解決大型語言模型（LLMs）被無關上下文分散注意力的問題。它僅包括一步，即明確指示語言模型忽略問題描述中的無關信息。指令提示能夠在真實性任務中達到88.2%的歸一化微準確率，并能夠超越包括思維鏈（CoT）、從少到多（Least-To-Most）、程序提示和自一致性在內的所有同類方法。程序提示（Chowdhery et al., 2023）策略試圖通過編寫一個Python程序來解決問題。隨后，通過使用外部Python解釋器運行Python代碼來驗證所編寫程序的正確性，從而獲得最終答案。

2.2.27 驗證鏈（CoVe）

大型語言模型（LLMs）容易生成事實錯誤的信息，稱為幻覺。Dhuliawala et al. (2023)的作者試圖通過CoVe解決幻覺問題并提高性能。CoVe執行四個核心步驟。首先，LLM為給定查詢生成一個基線響應。其次，利用\xi結合原始查詢和第一步的基線響應，生成一組驗證查詢，這些查詢能夠檢查基線響應中是否存在任何錯誤。第三，生成所有來自第三步的驗證查詢的答案。第四，糾正第三步檢測到的基線響應中的所有錯誤，并生成修訂后的響應。結果顯示，CoVe在無上下文問答、上下文問答和預響應任務中能夠比CoT和基本提示至少高出10%。

2.2.28 知識鏈（CoK）

與CoVe類似，CoK（Li et al., 2023c）試圖解決幻覺問題以獲得更準確的結果。它是一種三階段的提示技術。第一階段是推理準備，給定一個查詢，CoK準備多個初步理由和答案，同時識別相關的知識領域。第二階段是動態知識適應，如果在答案中沒有多數共識，CoK通過逐步適應第一階段識別的領域知識來糾正理由。第三階段是答案整合，使用第二階段修正的理由作為最終答案整合的更好基礎。CoVe在無上下文問答、基于表格的問答、多跳推理和真實性任務中超越了CoT、自一致性、VE和基本提示，分別顯示出至少3%、39%、1%和1Y_O的改進。

2.2.29 CHAIN-OF-CODE (COC)

在這項工作中，Li等人（2023a）提出了一種擴展方法，以改進LLM在代碼導向推理方面的能力。在此方法中，LLM不僅編寫程序代碼，還通過生成某些無法實際執行的代碼行的預期輸出來有選擇地模擬解釋器。其主要思想是激勵LLM將程序中的語義子任務格式化為靈活的偽代碼，這些偽代碼可以在運行時被顯式捕獲并傳遞給LLM進行模擬，作者稱之為LMulator。實驗表明，CoC在包括推薦系統、因果推理、常識推理、空間問答、情感理解、機器翻譯、邏輯推理、基于表格的數學問題求解和數學問題求解等多種任務中超越了CoT和其他基線方法。

2.2.30 PROGRAM-AIDED LANGUAGE MODELS (PAL)

Gao等人（2023）提出了一種提示策略，該策略利用LLM閱讀自然語言問題并生成交錯的自然語言和編程語言語句作為推理步驟。最后，使用Python解釋器執行編程語句以獲取答案。結果顯示，PAL在包括數學問題求解、基于表格的數學問題求解、常識推理和邏輯推理在內的多個NLP任務中輕松超越了CoT和基本提示等同類方法。

2.2.31 BINDER

作者聲稱Binder（Cheng等人，2022）是一種無需訓練的神經符號技術，它將輸入映射到一個程序，該程序（I）允許將LLM功能的單個API綁定到Python或SQL等編程語言，以擴大其語法覆蓋范圍并處理更廣泛的查詢；（II）在執行過程中使用LLM作為底層模型和程序解析器；（III）僅需要少量上下文樣本注釋。Binder流程分為兩個階段。首先，在解析階段，LLM根據查詢和知識源將輸入映射到一個程序。其次，在執行階段，LLM以選定的編程語言返回值，最后使用解釋器運行程序。與之前需要顯式訓練或微調的方法相比，Binder在基于表格的真實性和基于表格的問答任務中能夠獲得更高的準確性。

2.2.32 DATER

Ye 等人（2023）探索了利用大型語言模型（LLMs）進行少樣本學習，通過分解證據和查詢以實現高效的基于表格的推理。這種提示策略包括三個重要步驟。首先，根據查詢將一個龐大的表格分解為相關的小型子表格。接下來，使用 SQL 編程語言將復雜的自然語言查詢分解為邏輯和數值計算。最后，利用前兩個步驟中的子表格和子查詢，在少樣本設置中得出最終答案。結果顯示，Dater 能夠在基于表格的真實性任務中超越先前的需要顯式微調的方法，至少提升 2\%。同樣，在基于表格的問答任務中，它能夠超越這些方法至少 1 q_o。Dater 在上述兩項任務中也優于 Binder。

2.2.33 CHAIN-OF-TABLE

在 Wang 等人（2024）的研究中，作者基于著名的 CoT 提示技術，將其引入到表格環境中。這種多步驟的表格提示方法促進了更準確的表格理解。Chain-of-Table 是一種三步驟的提示技術。第一步指導 LLM 通過上下文學習動態規劃下一個表格操作，這里的操作可以是添加列或排序行等。第二步為選定的表格操作生成參數。前兩個步驟有助于轉換表格并創建各種中間表格表示，目的是回答原始查詢。在最后一步中，使用前兩個步驟中的最后一個表格表示來最終回答查詢。Chain-of-Table 在基于表格的問答和基于表格的真實性任務中達到了最先進的性能。在基于表格的問答任務中，它的平均性能提升了約 39%，而在基于表格的真實性任務中，它的平均性能提升了約 1.5%，相較于之前的最先進結果。

2.2.34 分解提示法（DECOMP）

Khot等人（2022）提出的DecomP技術將復雜問題分解為更簡單的子問題，然后將這些子問題委托給特定于子問題的LLM處理，這些LLM有自己的提示和分解器，可以進一步分解子問題。分解器可以采用層次分解、遞歸分解或調用外部API來解決子問題。在常識推理任務中，DecomP在精確匹配方面平均優于CoT和Least-to-Most方法25%。在多跳推理任務中，DecomP在四個不同數據集上均能輕松超越CoT。

2.2.35 三跳推理（THOR）

Fei等人（2023）提出的THOR模仿人類的情感/情緒理解推理過程。THOR包含三個步驟。首先，要求LLM識別給定查詢中提到的方面。其次，基于前一步的輸出和原始查詢，要求LLM詳細回答查詢中嵌入的基本觀點。最后，結合以上所有信息，要求LLM推斷與給定查詢相關的情感極性。THOR在多個情感/情緒理解任務數據集上顯著超越了先前的SoTA監督模型和零樣本模型。

2.2.36 元認知提示法（MP）

Wang和Zhao（2023）基于元認知概念提出MP，元認知源自認知心理學，涉及個體對其認知過程的意識和自我反思。MP包含五個階段：1）理解輸入文本，2）做出初步判斷，3）批判性地評估這一初步分析，4）得出最終決策并解釋推理過程，5）評估整個過程中的信心水平。結果顯示，MP在眾多NLP任務中持續優于CoT和PS，包括釋義、自然語言推理、上下文問答、詞義消歧、命名實體識別、關系抽取和多標簽文本分類。

2.2.37 事件鏈 (COE)

Bao等人 (2024) 提出了用于摘要任務的CoE方法。CoE包含四個連續步驟。第一步專注于特定事件提取。接下來，對第一步提取的事件進行分析和概括，形成更簡潔精煉的形式。第三步，對上一步概括的事件進行篩選，僅選擇覆蓋文本大部分內容的事件。最后一步，根據事件的時間順序重要性對第三步選擇的事件進行整合。結果顯示，CoE在兩個摘要數據集上的rouge評分方面優于CoT，同時更加簡潔。

2.2.38 基礎提示與術語定義

這是Vatsal等人 (2024) 討論的提示方法之一。在該方法中，基礎提示指令通過添加醫學術語定義得到增強，基于的假設是添加這些定義有助于LLM在回答查詢時獲得更多上下文。但結果顯示，這些術語定義并未真正起到幫助作用，可能是因為它們狹窄的知識范圍與LLM更大的知識庫存在沖突。

2.2.39 基礎 + 基于標注指南的提示 + 基于錯誤分析的提示

H等人 (2) 測試了LM在臨床命名實體識別任務中的能力。這種提示策略包含三個不同的組成部分?；A部分告知LLM關于任務的基本信息以及LLM應以何種格式輸出結果?；跇俗⒅改系牟糠职瑢嶓w定義和從標注指南中得出的語言規則?；阱e誤分析的部分在利用訓練數據對LLM輸出進行錯誤分析后，加入了額外的指令。作者還通過創建上述組件的不同組合，實驗了該提示方法的不同版本。這種提示方法在多個屬于命名實體識別任務的數據集上，平均獲得了0.57的精確匹配F1分數。

2.3 不同NLP任務中的提示工程

在將數據集歸類于NLP任務時，不同的研究論文采用了不同的衡量標準，并且這些標準在不同的研究中持續變化。論文試圖對此進行標準化，并通過定義不同的NLP任務，將不同的數據集歸入這些任務，來為以往的分類方式構建結構。論文進一步討論了針對這些任務所采用的各種提示方法。反映這一分類的分類圖可以在圖1中看到。需要注意的是，一個數據集很可能同時屬于不同的NLP任務。但這可能導致對提示技術在不同NLP任務中表現進行結構化分析時出現復雜的交織。

因此，在論文的研究中，論文確保一個數據集僅屬于與其最緊密關聯的一個NLP任務。以下各小節分別定義了一個不同的NLP任務、相應的數據集以及應用于這些數據集的各種提示策略。它們還進一步包含了每個數據集的潛在SoTA提示技術。提示方法的性能根據所使用的LLM而變化。因此，論文還列出了在給定數據集上使用提示策略的LLM列表。對于SoTA，論文僅提及了提示方法的名稱，因為在許多情況下，特定的LLM尚未與給定的提示方法進行實驗，因此不清楚它是否可能達到SoTA性能。因此，如果列表中的任何LLM與一種提示策略已被用于實驗給定數據集并取得了最佳性能，論文將其指定為SoTA，不論用于該技術的具體LLM是什么。

另一個值得強調的點是，在許多工作中，作者們實驗了同一數據集的不同版本，這使得對應用于它們的不同提示技術進行絕對比較變得困難?；谡撐牡睦斫?，論文考慮了上述所有因素，并在為每個數據集選擇SoTA時使用了論文的最佳判斷。

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

圖1：不同NLP任務中提示工程方法的分類圖

2.3.1 數學問題求解

此任務衡量模型在非表格設置中執行任何類型數學計算的能力。論文在閱讀有關此任務的不同提示方法時遇到的不同數據集有GSM8K Cobbe et al. (2021)、MATH Hendrycks et al. (2021)、SVAMP Patel et al. (2021)、ASDiv Miao et al. (2021)、AQuA Ling et al. (2017)、MAWPS Koncel-Kedziorski et al. (2016)、MultiArith Koncel-Kedziorski et al. (2016)、AddSub Koncel-Kedziorski et al. (2016)、SingleEq Koncel-Kedziorski et al. (2016)、Game rmof 24 Yao et al. (2024)、Multi-Step Arithmetic Srivastava et al. (2022)、GSM-HARD Gao et al. (2023)、SingleOp Koncel-Kedziorski et al. (2016) 和 MathQA Amini et al. (2019)。表1列出了上述數據集以及在這些數據集上實驗過的不同提示方法及其最佳表現提示策略。

2.3.2 邏輯推理

邏輯推理任務檢查模型遵循一組帶有輸入的命令并解決給定問題的自然語言理解能力。論文在閱讀有關此任務的不同提示策略時涵蓋的不同數據集有Word Sorting Srivastava et al. (2022)、Temporal Sequences Srivastava et al. (2022)、Formal Fallacies Srivastava et al. (2022)、Mini Crosswords Yao et al. (2024)、Object Counting Srivastava et al. (2022)、Logical Deduction Srivastava et al. (2022)、Boolean Expressions Srivastava et al. (2022)、Tracking Shuffled Objects Srivastava et al. (2022)、Web of Lies Srivastava et al. (2022)、Dyck Languages Srivastava et al. (2022)、Geometric Shapes Srivastava et al. (2022)、Repeat Copy Logic Srivastava et al. (2022)。表2包含上述數據集以及在這些數據集上實驗過的不同提示技術及其最佳表現提示方法。

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.3 常識推理

與邏輯推理任務相反，常識推理任務衡量模型基于人類常

表3：常識推理任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.4 多跳推理

多跳推理任務評估模型如何從上下文的不同部分連接證據來回答給定查詢的能力。論文在研究這項任務的不同提示策略時涵蓋的不同數據集包括StrategyQA Geva et al. (2021)、HotpotQA Yang et al. ( 2 0 1 8 )、Bamboogle Press et al. ( 2 0 2 2 )、CommaQA-E Khot et al. (2021)、MuSiQue Trivedi et al. (2022)、2WikiMultihopQA和Ho et al. (2020)。表 4 列出了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示策略。

2.3.5 因果推理

因果推理任務檢驗模型處理因果關系的能力。在研究此任務的不同提示技術時，論文遇到了兩個數據集，分別是Cause And Effect Srivastava等人（2022）和Causal Judgement Srivastava等人（2022）。表5展示了上述數據集及在這些數據集上實驗過的不同提示技術，以及表現最佳的提示方法。

表4：多跳推理任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表5：因果推理任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.6 社會推理

此任務測試模型對人類社會互動的推理能力。在調查此任務的不同提示技術時，論文僅發現了一個數據集，即SocialQA Srivastava等人（2022）。表6包含了上述數據集及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示策略。

2.3.7 上下文問答

此任務衡量模型僅依賴給定上下文來回答查詢的能力。論文在研究此任務的不同提示方法時涉及的不同數據集包括ProcessBank Berant et al. (2014)、BioMRC Pappas et al. (2020)、MASH-QA Zhu et al. (2020)、CliCR Suster & Daelemans (2018)、MultiSpanQA Li et al. (2022)、FinQA Chen et al. (2021b)、TAT-QA Zhu et al. (2021)、Patient Case Reports Vatsal & Singh (2024)、Drop Dua et al. (2019) 和 BoolQ Clark et al. (2019)。表 7 列出了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示技術。

表 6：社交推理任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表 7：上下文問答任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.8 無上下文問答

與上下文問答任務相反，無上下文問答任務依賴于模型嵌入的知識庫或任何開源知識庫，如維基百科，來回答查詢，而不是僅使用提供的上下文。論文在調查此任務的不同提示技術時發現的各種數據集包括PopQA Mallen et al. (2022)、EntityQ rmS ciavolino et al. ( 2 0 2 1 )、Wikidata Dhuliawala et al. (2023)、Wiki-Catoegory List Dhuliawala et al. (2023)、MedMCQA Pal et al. (2022)、MMLU Physics Hendrycks et al. (2020)、MMLU Biology Hendrycks et al. ( 2 0 2 0 )、USMLE Sample Exam Nori et al. (2023)、USMLE Self Assessments Nori et al. (2023)、MedQA Jin et al. ( 2 0 2 1 )、PubMedQA Jin et al. ( 2 0 1 9 )、MMLU Hendrycks et al. (2020) 和 AI2 Reasoning Challenge Clark et al. (2018)。表 8 列出了上述數據集以及在這些數據集上實驗過的不同提示策略，以及表現最佳的提示策略。

表8：無上下文問答任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表8 續前頁

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.9 空間問答

空間問答任務衡量模型處理空間推理的能力，空間推理是基于空間對象、關系和變換的認知過程。論文在研究不同提示技術時遇到的多種數據集包括 Brick World Hu et al. (2023), NLVR-Based Manipulation Hu et al. (2023), Natural Language Navigation Hu et al. (2023), Spartun Mirzaee & Kordjamshidi (2022) 和 Navigate Srivastava et al. (2022)。表9包含了上述數據集以及在這些數據集上實驗的不同提示方法和最佳表現的提示策略。

2.3.10 對話上下文問答

在此任務中，模型根據其對給定文本摘錄的理解以及如何回答一系列以對話形式呈現的相互關聯的查詢來評估。需要注意的是，每個查詢可能依賴于之前查詢的答案。在研究此任務的不同提示方法時，論文僅涉及了一個數據集，包括ConvFinQA Chen et al. (2022b)。表10列出了上述數據集及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示策略。

表9：空間問答任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表10：對話上下文問答任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.11 對話系統

對話系統任務檢驗模型在用戶與機器對話場景中進行語言生成的能力，或根據已生成的對話回答查詢。在對話上下文問答任務中，當文本摘錄變為對話時，這兩個任務可能會有很強的重疊，但根據論文在調研中遇到的數據集和提示技術，論文決定將這兩個任務分開。在調研此任務的不同提示方法時，論文僅發現了一個數據集，包括多輪對話響應（MTCR）Zhou et al. (2023)。表11列出了上述數據集及在這些數據集上實驗過的不同提示策略，以及表現最佳的提示技術。

2.3.12 代碼生成

此任務涉及輸入或最終輸出為編程語言代碼的所有情況。論文在研究不同提示策略時遇到的不同數據集包括 Codeforce Scraping Yasunaga et al. (2023)、HumanEval Chen et al. (2021a)、MBPP Austin et al. (2021) 和 MBCPP Athiwaratkun et al. (2022)。表 12 列出了上述數據集以及在這些數據集上實驗過的不同提示技術，以及表現最佳的提示策略。

表 11：對話系統任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表 12：代碼生成任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.13自由響應

此任務評估模型生成無約束文本響應的能力。論文在研究不同提示方法時涉及的各種數據集包括 Creative Writing Yao et al. (2024) 和 Longform Generation of Biographies Min et al. (2023)。表 13 列出了上述數據集以及在這些數據集上實驗過的不同提示策略，以及最佳技術。

表 13：自由響應任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.14 真實性

此任務評估模型傳達事實而不傳播任何類型錯誤信息的能力。此任務并不代表模型理解給定上下文的能力，而是更關注它們基于理解不做出虛假陳述的能力。表 14 顯示了上述數據集以及在這些數據集上實驗過的不同提示技術，以及表現最佳的提示技術。

表 14：真實性任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.15 基于表格的真實性

此任務是真實性任務的擴展，衡量模型在表格環境中傳達事實且不傳播任何類型錯誤信息的能力。在閱讀關于此任務的不同提示方法時，論文遇到的唯一數據集是 TabFact Chen et al. (2019)。表 15 包含上述數據集和在這些數據集上實驗的不同提示策略，以及表現最佳的提示策略。

表 15：基于表格的真實性任務提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.16基于表格的問答

此任務涉及在表格環境中的任何類型問答。它可以被視為其他類型表格任務的超集，如基于表格的真實性或基于表格的數學問題解決。但在本工作中，為了避免任何混淆，論文捕獲了所有不屬于更具體表格任務（如基于表格的真實性或基于表格的數學問題解決）的數據集。在閱讀關于此任務的不同提示策略時，論文僅遇到了兩個數據集，分別是 FeTaQA Nan et al. (2020) 和 WikiTQ Pasupat & Liang (2015)。表 16 顯示了上述數據集和在這些數據集上實驗的不同提示方法，以及表現最佳的提示策略。

2.3.17 基于表格的數學問題求解

這項任務是數學問題求解任務的擴展，衡量模型在表格環境中執行各種數學計算的能力。論文在研究這項任務的不同提示技術時涉及的不同數據集包括TabMWP Lu et al. (2022)和Penguins in a Table Srivastava et al. (2022)。表17列出了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示策略。

2.3.18 推薦系統

這項任務衡量模型處理給定輸入并從可能項列表中建議最相關的一組項作為輸出的能力。在調查這項任務的不同提示技術時，論文只發現了一個數據集，即電影推薦Srivastava et al. (2022)。表18列出了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示技術。

2.3.19 情感/情緒理解

這項任務檢查模型理解人類情感或情緒的能力。論文在研究這項任務的不同提示方法時遇到的各種數據集包括Ruin Names Srivastava et al. (2022)，SemEval14 Laptop and Restaurant Pontiki et al. (2016)和Forex Fatouros et al. (2023)。表19包含了上述數據集以及在這些數據集上實驗過的不同提示技術，以及表現最佳的提示策略。

表16：基于表格的問答任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表17：基于表格的數學問題求解任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表18：推薦系統任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.20機器翻譯

在此任務中，模型被測試其在兩種語言之間翻譯的能力。論文在研究不同的提示技術時遇到的不同的數據集包括顯著翻譯錯誤檢測Srivastava等人（2022年），FLORES Costa-jussa等人（2022年），WMT21 Farhad等人（2021年），多領域Aharoni & Goldberg（2020年）和PDC Sun等人（2020年）。表20列出了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示策略。

表19：情感/情緒理解任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表20：機器翻譯任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.21 命名實體識別

命名實體識別任務旨在識別給定輸入文本中預定義的類別或對象。論文在調查此任務的不同提示技術時發現的不同數據集包括MTSamples Uzuner等人（2011年），VAERS Du等人（2021年），研究論文Tang等人（2024年）和BC5CDR-chem Li等人（2016年）。表21顯示了上述數據集以及在這些數據集上實驗過的不同提示策略，以及表現最佳的提示策略。

表21：命名實體識別任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.22 詞義消歧

詞義消歧任務檢驗模型在不同語境中識別單詞不同含義的能力。在閱讀關于此任務的不同提示方法時，論文僅發現了一個數據集，即WiC Pilehvar & Camacho-Collados (2018)。表22展示了上述數據集和在該數據集上實驗的不同提示技術，以及表現最佳的提示方法。

2.3.23 摘要生成

此任務測試模型將長篇輸入文本分解為較小片段，同時確保這些小片段保留重要信息的能力。在閱讀關于此任務的不同提示方法時，論文僅涵蓋了一個數據集，即CCTC Bao et al. (2024)。表23包含了上述數據集和在該數據集上實驗的不同提示技術，以及表現最佳的提示策略。

表22：詞義消歧任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

表23：摘要任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.24 釋義

釋義任務旨在通過使用不同的詞匯重寫給定的輸入文本，同時保持原始輸入文本的真實語義不變。摘要任務與釋義任務的主要區別在于，摘要任務的主要目標是縮短輸出文本的長度，使其相對于輸入文本更短，而釋義任務則專注于在其重寫過程中使用不同的詞匯。論文在2上進行了實驗。表24列出了上述數據集以及在這些數據集上實驗的不同提示方法，以及表現最佳的提示技術。

表24：釋義任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.25 立場檢測

此任務評估模型從文本中判斷作者是否支持或反對某個主題、目標或評估對象的能力。論文在研究此任務的不同提示技術時遇到的不同數據集包括SemEval-2016 Mohammad等人(2016)，VAST Allaway & McKeown (2020)和P-Stance Li等人(2021)。表25顯示了上述數據集以及在這些數據集上實驗的不同提示方法，以及表現最佳的提示技術。

表25：立場檢測任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.26 自然語言推理

該任務的主要目標是確定在給定前提 p 的情況下，假設是真（蘊涵）、假（矛盾）還是未確定（中性）。論文在研究不同提示方法時涉及的數據集包括 QNLI Rajpurkar et al. (2016) 和 MedNLI Romanov & Shivade (2018)。表26列出了上述數據集以及在這些數據集上實驗過的不同提示策略，以及表現最佳的提示方法。

表26：自然語言推理任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.27 關系抽取

關系抽取評估模型識別預定義類別或對象或命名實體之間語義關系的能力。論文在研究不同提示技術時只遇到一個數據集，包括 DDI Segura-Bedmar et al. (2013)。表 27 顯示了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示策略。

表27：關系抽取任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.28 基于語言的任務完成

該任務的主要目標是檢查模型在遵循一系列基于語言的導航指令以做出完成任務所需行動決策方面的表現。論文在調查不同提示策略時發現的數據集包括 ALFWorld Shridhar et al. (2020)、WebShop Yao et al. (2022a)、SayCan Ahn et al. (2022) 和 Scan Lake & Baroni (2018)。表28列出了上述數據集以及在這些數據集上實驗過的不同提示方法，以及表現最佳的提示方法。

表28：基于語言的任務完成任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

2.3.29 多標簽文本分類

此任務衡量模型將每個輸入分配給一組預定義目標標簽的能力。此任務可以包含上述許多任務，如立場檢測、命名實體識別等，但為了使這些任務定義盡可能不重疊，以便更好地調查提示方法，論文僅包括那些不能適當地歸類于上述討論任務的數據集。在閱讀不同提示策略的相關文獻時，論文涵蓋的不同數據集包括EUR-LEX Chalkidis et al. (2021)、UNFAIR-ToS Lippi et al. (2019) 和 LEDGAR Tuggener et al. (2020)。表29包含上述數據集以及在這些數據集上實驗過的不同提示策略，以及表現最佳的提示方法。

表29：多標簽文本分類任務的提示工程分析

大語言模型在不同自然語言處理任務中的提示工程方法綜述-AI.x社區

本文轉載自?? AI帝國??，作者：無影寺

標簽

贊

收藏

回復

舉報

回復

相關推薦

【深度解析】自然語言生成中的“幻覺”現象

zhcs333 ? 4359瀏覽 ? 0回復
大模型應用與LUI（自然語言交互）落地的關鍵模塊——語義路由實現總結

Syrupup ? 5931瀏覽 ? 0回復
綜述：大語言模型在信息抽取上的應用

xuxiangda ? 5410瀏覽 ? 0回復
NATURAL PLAN：LLMs在自然語言規劃上的基準

sbf_2000 ? 3039瀏覽 ? 0回復
大語言模型知識沖突的綜述

sbf_2000 ? 4816瀏覽 ? 0回復
基于Llama 3和LangChain，使用自然語言進行SQL查詢

小虎哦哦 ? 5076瀏覽 ? 0回復
大語言模型中自我發現的蘇格拉底方法

AIGC最前線 ? 3004瀏覽 ? 0回復
WordLlama：一個開源、快速、輕量級（16MB）的自然語言處理工具包！

Halo咯咯 ? 3694瀏覽 ? 0回復
掌握BERT：自然語言處理（NLP）從初級到高級的綜合指南

石映飛云 ? 2607瀏覽 ? 0回復
大語言模型評測中的評價指標：方法、基準和最佳實踐

芝士AI吃魚 ? 9469瀏覽 ? 0回復
推進可解釋性自然語言生成（NLG）：技術、挑戰和應用

51CTO內容精選 ? 3060瀏覽 ? 0回復
TAG：定義自然語言查詢的高效解決方案

51CTO內容精選 ? 3271瀏覽 ? 0回復
面向語音控制前端應用程序的自然語言處理（NLP）：架構、進展與未來方向

51CTO內容精選 ? 2553瀏覽 ? 0回復
深入探究編碼器 - 解碼器架構：從RNN到Transformer的自然語言處理模型

AI論文解讀 ? 6046瀏覽 ? 0回復
什么是自然語言處理——NLP，其解決了什么問題？

AI探索時代 ? 2827瀏覽 ? 0回復
你知道自然語言處理(NLP)能解決哪些問題嗎？即自然語言處理任務分類有哪些？

AI探索時代 ? 2159瀏覽 ? 0回復
在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？

AI探索時代 ? 1984瀏覽 ? 0回復
大語言模型在知識增強復雜問題求解中的綜述

AIRoobt ? 873瀏覽 ? 0回復
自然語言理解中的詞向量發展歷史

每天五分鐘玩轉人工智能 ? 695瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

依賴ChatGPT寫作，大腦竟然"退化"了？206頁研究揭露真相 1天前發布
給大模型裝上"認知工具"，數學推理能力直接起飛 1天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：上海交大、復旦、上海 AI Lab引入漸進學習框架來驗證弱到強的推理

下一篇： Meta發表的將系統2模型蒸餾至系統1模型

社區精華內容

目錄

主站蜘蛛池模板：精品美女久久久久久免费 | 日韩精品一区二区在线 | 午夜成人免费视频 | 欧美日韩国产一区二区 | 最新国产精品精品视频 | 色一情一乱一伦一区二区三区 | 日韩av手机在线观看 | 国产一区二区三区视频免费观看 | 国产美女自拍视频 | 久草精品在线 | 日韩av免费看 | 久久精品国产一区二区 | 亚洲视频一区在线观看 | 亚洲一区二区三区在线播放 | 国产一级特黄aaa大片评分 | 国产日韩精品视频 | 午夜免费| 亚洲欧洲精品成人久久奇米网 | 久久久久久久一区 | 午夜电影日韩 | 国产精品成人一区 | 韩三级在线观看 | 在线欧美视频 | 成人av网站在线观看 | 成人国产精品免费观看 | 日韩av高清 | 成人免费视频网站在线观看 | 夜夜骑天天干 | 日本爱爱 | 精品一区二区不卡 | 91在线视频一区 | 成人蜜桃av | 天天躁日日躁狠狠躁白人 | 婷婷色国产偷v国产偷v小说 | 国产日产欧产精品精品推荐蛮挑 | 亚洲精品久久久久久久久久久 | 国产精品99久久久久久久vr | 伊人色综合久久久天天蜜桃 | 狠狠干2020 | 日韩精品免费一区 | 亚洲网站在线观看 |

<rt id="6ueuo"><pre id="6ueuo"></pre></rt><dl id="6ueuo"></dl>

<li id="6ueuo"><tbody id="6ueuo"></tbody></li>

<li id="6ueuo"></li>