成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強過AutoGPT!微軟重磅研究提出APO算法,「自動提示」淘汰提示工程師

人工智能 新聞
手寫提示既費時又費力,微軟研究人員的APO算法提供了一種自動化的解決方案。無需調整超參數或模型訓練,APO可以顯著提高提示的性能,并具有可解釋性。

模型調教得好不好,提示(prompt)最重要。

在優化和改進提示工程的過程中,提示變得越來越精巧、復雜。

據Google Trends,提示工程在過去的6個月受歡迎程度急劇上升,到處都是關于提示的教程和指南。

比如,一個在網上爆火的提示工程指南GitHub已經狂瀾28.5k星。

然而,完全用試錯法開發提示可能不是最有效的策略。

為了解決這個問題,微軟研究人員開發了一種全新提示優化方法,稱為自動提示優化(APO)。

論文地址:https://arxiv.org/pdf/2305.03495.pdf

手寫提示省了

近來,各種跡象表明,在大規模網絡文本中訓練的大型語言模型在跨越各種NLP任務中有時表現不佳。

這些LLMs都是通過提示來遵循人的指令。然而,編寫這些自然語言提示仍然是一個手工試錯的過程,需要人們付出巨大努力,甚至還得具備專業知識。

因此,還得需要自動,或半自動的程序來幫助程序員寫出最好的提示。

圖片

最近的一些研究,通過訓練輔助模型,或對提示進行可微表示來研究這個問題。

然而,這些工作假定可以訪問到LLM的內部狀態變量,而實操的人通常通過API與LLM進行交流。

其他的工作則通過強化學習或LLM基礎反饋對提示進行離散操做。

這些算法也可能需要對LLM的低級訪問,還會產生不可理解的輸出,或依賴于無方向蒙特卡羅搜索(monte-carlo search)的語義空間上的提示。

對此,微軟研究人員提出了自動提示優化(APO),一個通用的和非參數提示優化算法。

APO是一種受數值梯度下降(numerical gradient descent)啟發的通用非參數提示優化算法,旨在自動化和改進LLM的快速開發過程。

圖片

APO算法的整體框架

這一算法建立在現有的自動化方法的基礎上,包括訓練輔助模型,或提示的可微表示,以及使用強化學習或基于LLM的反饋進行離散操作。

與以前的方法不同,APO通過在基于文本的蘇格拉底對話(Socratic dialogue)中使用梯度下降法來解決離散優化的障礙。

它用LLM反饋代替了差異,用LLM編輯代替了反向傳播。

更具體來講,該算法首先利用小批量的訓練數據獲得自然語言「梯度」,以描述給定提示中缺陷的。

這些梯度指導編輯過程,在梯度的相反語義方向上編輯當前提示符。

然后,再進行更廣泛的集束搜索(beam search),以擴大提示的搜索空間,將提示最佳化問題轉化為集束候選的選擇問題。

非參數「梯度下降」的離散提示優化

自動提示優化框架假設可以訪問由輸入和輸出文本對(數字、類別、匯總等)組成的初始提示和訓練數據:。

要注意的是,所有提示p都是從相干自然語言 的空間中提取的。

研究人員假設訪問了一個黑盒LLM API,,它返回由連接p和x組成的提示符可能的文本延續y (例如,少樣本提示符和輸入示例,或Chatbot角色和對話歷史)。

在這種情況下,APO算法迭代精化了提示以產生,對于某些度量函數和域內測試或開發數據,這是最佳提示的一個近似。

梯度下降

在研究的設置中,梯度下降法是指 (1) 用一批數據評估提示符的過程,(2) 創建一個局部丟失信號,其中包含關于如何改進當前提示符的信息,然后 (3) 在開始下一次迭代之前,在梯度的相反語義方向編輯提示符。

在此,研究人員使用一對靜態LLM提示來完成這個過程,如圖所示。

第一個提示是創建丟失信號「梯度」,叫做。

雖然特定的內容可能會有所不同,但是必須始終考慮當前提示,以及在一小批數據(特別是錯誤數據集)上的行為,并生成缺陷的自然語言摘要。這個摘要變成了梯度。

就像傳統的梯度一樣,梯度表示參數空間中的一個方向,這會使模型用當前提示描述缺陷的自然語言空間變得更糟糕。

第二個提示符叫做,雖然這個提示符也是變化的,但它必須始終采用梯度和當前提示符,然后在與相反的語義方向上對執行編輯,即修復指示的問題。

圖片

與傳統的機器學習設置不同,研究人員并沒有生成一個單一的梯度或編輯,而是生成了一些方向,可以改善當前的提示。

集束搜索

接下來,研究者描述了梯度下降用于指導集束搜索在提示符空間上的運行。這個集束搜索是提示訓練算法的外部循環。

圖片

集束搜索是一個迭代優化過程,在每次迭代中,當前提示符用于生成許多新的候選提示符。

接下來,一個選擇過程就是用來決定哪些提示,值得繼續進行到下一次迭代。這個循環允許對多個提示符候選進行增量改進和探索。

實驗評估

為了評估 APO 的有效性,微軟研究小組將其與三種最先進的NLP任務即時學習基線進行了比較,包括越獄檢測、仇恨語音檢測、假新聞檢測和諷刺檢測。

APO在所有四個任務中都持續超越基線,在蒙特卡洛(MC)和強化學習(RL)基線上取得了顯著的進步。

圖片

平均而言,APO比MC和RL基線分別提高了3.9%和8.2% ,比原始提示圖片提高了15.3% ,比AutoGPT提高了15.2%。

結果表明,提出的算法可以提高初始提示輸入31%的性能,超過最先進的提示學習基線平均4-8% ,而依賴較少的LLM API調用。

此外,研究人員還展示了優化過程的可解釋性,并調查了算法的缺點。

值得注意的是,這些改進是在沒有額外的模型訓練或超參數優化的情況下完成的,這表明了APO如何有效改進了LLM的提示。

對于提示工程來說,APO的出現是非常興奮的。

APO通過使用梯度下降法和集束搜索自動化快速優化提示過程,減少了快速開發所需的人力和時間。

實證結果表明,該模型能夠在一系列自然語言處理任務中迅速提高質量。

圖片

越獄是一項新的任務,目標是確定用戶對LLM的輸入是否代表越獄。我們將越獄定義為一種用戶互動策略,旨在讓AI打破自己的規則。

圖片

發現微軟研究員帶來的改變游戲規則的自動提示優化(APO)!一個強大的通用框架,用于優化LLM提示。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-04 10:00:12

模型算法

2017-03-16 14:21:55

人工智能神經網絡機器

2023-03-21 21:22:27

提示工程預測NLG

2023-07-27 07:37:48

2009-12-11 09:55:34

微軟雅虎工程師

2022-11-14 10:04:36

AI模型

2024-08-07 12:29:04

2023-12-06 13:20:00

AI模型

2024-07-29 00:00:00

2023-10-12 00:01:01

2017-11-09 14:12:44

大數據軟件工程師算法工程師

2023-10-30 00:14:34

Agent提示工程LLM

2021-09-14 08:18:49

Selenium4自動化測試瀏覽器

2025-02-14 08:44:39

提示工程OpenAIDeepSeek

2014-06-20 09:16:26

2009-11-19 08:49:35

Windows 7系統內核

2021-03-09 10:24:46

數學計算機系統架構師

2024-09-10 08:10:50

2019-12-11 11:53:51

架構運維技術

2015-11-06 11:14:29

SDN網絡工程師工作環境
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩视频在线免费观看 | av香蕉| 久久精品视频一区二区 | 久久久久无码国产精品一区 | 国产免费视频 | 久草成人网| 日韩欧美一区二区三区免费观看 | 黄色a视频 | 2019天天干天天操 | 欧美一区二区三区在线免费观看 | 干干干操操操 | 成人免费网视频 | 日韩和的一区二区 | 亚洲一区二区中文字幕在线观看 | 国产精品视频网 | 中文字幕一区二区三区精彩视频 | 日韩色图视频 | 中文字幕视频在线观看 | 瑟瑟视频在线看 | 欧美性吧 | 久久精品中文字幕 | 国产精品久久久久久久免费大片 | 亚洲欧洲一区二区 | 91久久精品国产 | 欧美日韩高清在线观看 | 日韩一二区 | 久久久国产视频 | 自拍偷拍小视频 | 欧美一级片在线看 | 99热热热| 国产不卡视频 | 久久亚洲国产精品日日av夜夜 | 国产9999精品 | 日韩成年人视频在线 | 成人av免费网站 | 午夜精品一区 | 日韩精品一区二区三区在线播放 | 亚洲女人的天堂 | 性色视频 | 亚洲成av人影片在线观看 | 久久精点视频 |