成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent 應用于提示工程

原創 精選
人工智能
作為Agent 應用于提示工程的一種具體實現,ReAct 邁出通往通用人工智能和具象語言模型的一步。如果一個機器人有一種基于熟悉的特征對外部環境進行建模并使用該模型創建提示的方法,那么它至少可以嘗試在各種領域獨立行動,而不需要人工制作的示例。

如果Agent模仿了人類在現實世界中的操作方式,那么,能否應用于提示工程即Prompt Engingeering 呢?

從LLM到Prompt Engineering

大型語言模型(LLM)是一種基于Transformer的模型,已經在一個巨大的語料庫或文本數據集上進行了訓練,包括了互聯網上的大多數網頁。在訓練期間,需要花費大量的時間(和/或圖形處理器)、能量和水(用于冷卻) ,梯度下降法被用來優化模型的參數,以便它能夠很好地預測訓練數據。

圖片圖片

本質上,LLM 學習根據前面的詞序預測最可能的下一個詞。這可以用來執行推理即查找模型生成某些文本的可能性,或者用來生成文本,像 ChatGPT 這樣的 LLM 使用這些文本與人進行對話。一旦 LLM 完成了訓練,意味著它的參數被保存,不會向訓練數據或重新訓練的數據中添加輸入。值得注意的是,LLM 仍然會從訓練數據中學到偏見,而 ChatGPT 背后的 OpenAI 公司不得不增加安全措施,使用來自人類反饋的強化學習(RLHF)以防止該模型產生有問題的內容。此外,由于 LLM 默認情況下只是根據他們所看到的內容生成最有可能的下一個單詞,而沒有進行任何事實核查或推理,因此它們容易產生幻覺,或者編造事實,以及推理錯誤。

自從 ChatGPT 公開發布以來,LLM 風靡全球。這些模型的新興智能以及它們在我們生活中的各個方面的應用,使它們成為一種非常受歡迎的工具,每家公司都想從中分一杯羹。除了聊天機器人以及編碼和寫作助手,LLM 還被用來創建與包括互聯網在內的模擬環境交互的Agent。

如果嘗試過 ChatGPT,有時會發現它的回答很糟糕,但是如果重新措辭這個問題,可能會得到更好的結果。這就是提示工程的藝術,通過修改輸入使 LLM 以您希望的方式作出響應。提示語的背后只是嘗試通過提出一些事實來“喚醒LLM的記憶”,或者告訴它一個新的領域,然后從一個訓練好的 LLM 那里得到適當的響應。這就是所謂的上下文學習,一般主要有兩種類型: zero-shot和few-shot。zero-shot為 LLM 提供了一個提示,可以在問題/命令之前包含一些背景信息,以幫助 LLM 找到一個好的響應。few-shot給 LLM 提供了一些示例提示和可取的響應,然后提出一個新的提示,LLM 將以示例的格式響應這些提示。

提示工程可能是自然語言處理(NLP)的未來趨勢之一。這個領域正在從定制模型轉向定制提示,因為 LLM 比任何人在沒有大量時間和精力的情況下自己制作的語言模型要好得多。當 LLM 與正確的提示工程技術配對時,通常情況下,它可以完成專用模型所能完成的任何工作。

圖片圖片

從CoT到Agent

思維鏈推理(CoT)是一種流行的提示工程技術,旨在對抗推理錯誤。它包括給 LLM 提供一個或多個例子,說明如何通過語言推理解決問題,然后給它一個不同的問題,以這種方式解決。這可以幫助克服推理的錯誤,但它仍然受到幻覺的影響以及幻覺的“事實”可以通過推理傳播,導致模型得出錯誤的結論。

只提出一個問題的標準提示語被比作思維鏈(CoT)提示的輸入 ,需要多步推理才能解決問題。由于幻覺的問題,使用 CoT 提示的 LLM 有更令人信服的響應,但它仍然有可能是錯誤的。如果 LLM 要成為一個有用的工具,如果不能左右它胡編亂造,我們就永遠不能相信它們,最好還是自己做研究。而Agent似乎可以解決這個問題,允許 LLM 采取行動,比如搜索維基百科,以便從中找到事實和理由。

Agent 應用于提示工程示例——ReAct

與思維鏈推理一樣,ReAct 也是一種提示工程方法,它使用少量學習來教模型如何解決問題。CoT 被認為是模仿人類如何思考問題,ReAct 也包括了這個推理元素,但它更進一步,允許Agent操作文本,讓它與環境互動。人類使用語言推理來幫助我們制定策略并記住事情,但也可以采取行動來獲得更多的信息并實現目標。這就是 ReAct 的基礎。ReAct 提示包括行動的例子、通過行動獲得的觀察結果,以及人類在過程中各個步驟中轉錄的思想(推理策略)。LLM 學習模仿這種交叉思考和行動的方法,使其成為其環境中的Agent。

一定要記住,觀察結果不是由 LLM 生成的,而是由環境生成的,環境是一個單獨的模塊,LLM 只能通過特定的文本操作與之交互。因此,為了實現 ReAct,需要:

  1. 一種環境,它采取一個文本操作, 從一組可以根據環境的內部狀態改變的潛在操作中返回一個文本觀察。
  2. 一個輸出解析器框架,一旦Agent編寫了一個有效的操作,它就停止生成文本,在環境中執行該操作,并返回觀察結果, 一般是將其追加到目前生成的文本中,并用該結果提示 LLM。
  3. 人工產生的示例,混合了思想,行動和觀察,在環境中可以使用few-shot,例子的數量和細節取決于目標和開發者的設計,例如:

圖片

這里,思想、動作和觀察都被清楚地標記如上,而且動作使用了一種特殊的格式,查詢放在括號中,這樣Agent就可以學習以這種方式編寫任務,然后輸出解析器就可以輕松地提取查詢。

Yao 等人(2023)使用了 PalM-540B,用這個 LLM 在兩個知識密集型推理任務和兩個決策任務上測試了 基于ReAct 的提示工程效果。

知識密集型推理任務

在這個任務領域中使用的兩個域是 HotPotQA 和 FEVER,前者是使用 Wikipedia 段落進行多跳問答,后者是事實驗證。Agent可以使用以下操作與Wikipedia API 進行交互:

  • Search: 根據名稱或大多數相似結果列表查找頁面。
  • 查找: 在頁中查找字符串。
  • 以答案結束任務。

在 HotPotQA 和 FEVER 這兩個評估領域中, ReAct 與如下提示工程 技術進行了比較,結果是通過 FEVER 的準確性和 HotPotQA 中 EM 來評估的。

圖片圖片

其中:

  • 標準Prompt: 沒有思想,行動,或觀察。
  • CoT: 沒有及時的行動或觀察。
  • CoT-SC (自我一致性) : 從 LLM 中抽取一定數量的回答,并選擇大多數作為回答。
  • 動作: 沒有思維的prompt。
  • ReAct ->CoT-SC: 開始時是ReAct,然后轉換為 CoT-SC。
  • CoT-SC-> ReAct: 開始時是 CoT-SC,然后切換到 ReAct。

ReAct 在 HotPotQA 中表現不佳,但在 FEVER 中表現優于 CoT。ReAct 比 CoT 更不容易產生幻覺,但是有更高的推理錯誤率。盡管 ReAct 確實有這個缺點,但是 ReAct-> CoT-SC 和 CoT-SC-> ReAct 方法是其中最成功的。

決策任務

測試ReAct 的兩個決策任務是 ALFWorld 和 WebShop。

ALFWorld 是一個基于文本的游戲,具有真實的環境。它具有用于在模擬世界中移動和交互的文本操作,例如“打開抽屜1”給代理人的一個目標可能是在房子里找到一個特定的物體,因此常識推理有助于知道這樣一個物體通常在哪里被發現。衡量成功的標準是達到目標的試驗的百分比。

WebShop 是一個模擬在線購物網站,數據來自亞馬遜。這是一個具有挑戰性的領域,因為它有大量的行動導航網站和搜索產品。目標是找到一個符合用戶規范的項目。衡量成功的標準是所選項目與用戶心目中的隱藏項目有多接近。

從論文中的評估結果來看,ReAct 的表現明顯優于基線。

ReAct 雖然由于其推理錯誤而并不完善,但仍然是一個強有力的提示工程方法,它克服了思維鏈推理的事實幻覺問題,并且允許 LLM 成為一個可以與其環境相互作用的Agent。此外,它具有可解釋性,因為Agent在行動時輸出其思維過程。

小結

作為Agent 應用于提示工程的一種具體實現,ReAct 邁出通往通用人工智能和具象語言模型的一步。如果一個機器人有一種基于熟悉的特征對外部環境進行建模并使用該模型創建提示的方法,那么它至少可以嘗試在各種領域獨立行動,而不需要人工制作的示例。它還需要某種記憶,或者從它的經歷中學習的能力,具有常識性知識的機器人,只要能夠解決諸如推理錯誤和幻覺之類的問題,就可能對我們有很大的幫助。

BTW,擁有了大模型就可以擁有好的產品么? 產品經理的貢獻往往仍然是不可或缺的,以智能語音產品為例, 你可能需要這樣的一本案頭手冊(筆者的最新譯作),幫助自己更好的完成產品設計。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2024-03-19 15:09:07

2023-11-06 10:07:22

模型人工智能數字

2009-06-10 15:57:49

AndroidMIPS架構

2011-05-10 09:20:30

2023-05-05 14:11:12

區塊鏈航空領域

2009-05-06 16:54:05

firefoxseo瀏覽器

2022-10-24 10:20:28

物聯網智能計量

2022-01-27 15:33:11

區塊鏈金融技術

2020-12-21 14:40:10

Java技術開發

2016-11-16 16:04:27

2021-07-22 14:26:27

物聯網衛星技術IOT

2023-06-26 17:37:54

人工智能AI

2009-12-29 18:17:32

Silverlight

2023-10-18 06:49:06

人工智能API安全

2023-09-18 18:49:45

2023-05-30 15:09:56

無人機無人駕駛飛行器

2009-12-16 14:45:35

Linux操作系統

2017-02-16 12:00:30

云平臺智慧城市云計算

2018-03-13 15:31:09

區塊鏈

2020-05-24 20:35:26

物聯網系統蜜蜂物聯網
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品二区三区 | 综合精品| 中文字幕国产视频 | 日韩久久精品 | 欧美啪啪 | 看特级黄色片 | 欧美一区二区在线免费观看 | 国产精品久久久久9999鸭 | 日韩精品一区二区三区中文在线 | 三级黄色片在线 | 亚洲免费视频一区 | 亚洲人成在线播放 | 九九热免费观看 | 久久99视频 | 97精品超碰一区二区三区 | 精品国产91乱码一区二区三区 | a精品视频 | 看片91| 欧美 日韩 国产 在线 | 亚洲日韩中文字幕一区 | 毛片在线免费播放 | 少妇黄色| 日本精品久久久久久久 | 香蕉久久久 | 国产美女视频黄 | 国产高清免费视频 | 天天综合永久入口 | 麻豆av片 | av网站在线免费观看 | 超碰在线亚洲 | aaaaaaa片毛片免费观看 | 中文字幕丁香5月 | 国产精品乱码一区二区三区 | 99精品电影 | 一级a性色生活片久久毛片波多野 | 欧美视频一区二区三区 | 亚洲精品一区中文字幕 | 精品国产伦一区二区三区观看说明 | 亚洲a视频 | 欧美色综合| 亚洲一区二区三区在线视频 |