成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

告訴大模型「深呼吸,一步一步來(lái)」有奇效,DeepMind發(fā)現(xiàn)最有效的提示方法

人工智能 新聞
本文提出了一種簡(jiǎn)單而有效的方法 OPRO,其利用大型語(yǔ)言模型作為優(yōu)化器,優(yōu)化任務(wù)用自然語(yǔ)言描述就可以,優(yōu)于人類設(shè)計(jì)的提示。

優(yōu)化對(duì)于所有領(lǐng)域都至關(guān)重要。 

有些優(yōu)化是從初始化開(kāi)始的,然后迭代的更新解以優(yōu)化目標(biāo)函數(shù)。這種優(yōu)化算法通常需要針對(duì)單個(gè)任務(wù)進(jìn)行定制,以應(yīng)對(duì)決策空間帶來(lái)的特定挑戰(zhàn),特別是對(duì)于無(wú)導(dǎo)數(shù)的優(yōu)化。

接下來(lái)我們要介紹的這項(xiàng)研究,研究者另辟蹊徑,他們利用大型語(yǔ)言模型 (LLM) 充當(dāng)優(yōu)化器,在各種任務(wù)上的性能比人類設(shè)計(jì)的提示還好。

這項(xiàng)研究來(lái)自 Google DeepMind,他們提出了一種簡(jiǎn)單而有效的優(yōu)化方法 OPRO(Optimization by PROmpting),其中優(yōu)化任務(wù)可以用自然語(yǔ)言來(lái)描述,例如 LLM 的提示語(yǔ)可以是「深呼吸,一步一步地解決這個(gè)問(wèn)題」,也可以是「讓我們結(jié)合我們的數(shù)字命令和清晰的思維來(lái)快速準(zhǔn)確地破譯答案」等等。

在每個(gè)優(yōu)化步驟(step)中,LLM 根據(jù)先前生成的解決方案及其值的提示生成新的解決方案,然后對(duì)新解決方案進(jìn)行評(píng)估并將其添加到下一個(gè)優(yōu)化步驟的提示中。

最后,該研究將 OPRO 方法用于線性回歸和旅行商問(wèn)題(著名的 NP 問(wèn)題),然后繼續(xù)進(jìn)行提示優(yōu)化,目標(biāo)是找到最大化任務(wù)準(zhǔn)確率的指令。

本文對(duì)多個(gè) LLM 進(jìn)行了綜合評(píng)估,包括 PaLM-2 模型家族中的 text-bison 和 Palm 2-L,以及 GPT 模型家族中的 gpt-3.5-turbo 和 gpt-4 。實(shí)驗(yàn)在 GSM8K 和 Big-Bench Hard 上對(duì)提示進(jìn)行了優(yōu)化,結(jié)果表明經(jīng)過(guò) OPRO 優(yōu)化的最佳提示在 GSM8K 上比人工設(shè)計(jì)的提示高出 8%,在 Big-Bench Hard 任務(wù)上比人工設(shè)計(jì)的提示高出高達(dá) 50%。

圖片

論文地址:https://arxiv.org/pdf/2309.03409.pdf

論文一作、 Google DeepMind 的研究科學(xué)家 Chengrun Yang 表示:「為了進(jìn)行提示優(yōu)化,我們從『讓我們開(kāi)始解決問(wèn)題』這樣的基本指令開(kāi)始,甚至是空字符串,最終 OPRO 生成的指令會(huì)使 LLM 性能逐漸變好,如下圖所示的向上的性能曲線看起來(lái)就像傳統(tǒng)優(yōu)化中的情況一樣!」

圖片

「每個(gè) LLM 即使是從相同的指令開(kāi)始,經(jīng)過(guò) OPRO 的優(yōu)化,不同 LLM 的最終優(yōu)化指令也顯示出不同的風(fēng)格,優(yōu)于人類編寫(xiě)的指令,并且可以遷移到類似的任務(wù)上。」

圖片

圖片

從上表中我們也可以得出,作為優(yōu)化器的 LLM 最終找到的指令風(fēng)格差異很大,PaLM 2-L-IT 和 text-bison 的指令偏簡(jiǎn)潔,而 GPT 的指令又長(zhǎng)又詳細(xì)。盡管一些頂級(jí)指令包含「一步一步(step-by-step)」提示,但 OPRO 都能找到其他的語(yǔ)義表達(dá)方式,實(shí)現(xiàn)了相媲美或更好的準(zhǔn)確性。

不過(guò)有研究者表示:「深呼吸,一步一步地來(lái)」這個(gè)提示在谷歌的 PaLM-2 上非常有效(準(zhǔn)確率為80.2)。但我們不能保證它適用于所有模型和所有情況,所以我們不應(yīng)該盲目地到處使用它。

圖片

OPRO:將 LLM 作為優(yōu)化器

圖 2 展示了 OPRO 整體框架。在每個(gè)優(yōu)化步驟中,LLM 根據(jù)優(yōu)化問(wèn)題描述以及元提示(meta-prompt)中先前評(píng)估的解決方案(圖 2 右下部分)生成優(yōu)化任務(wù)的候選解決方案。

接下來(lái),LLM 在對(duì)新的解決方案進(jìn)行評(píng)估并將其添加到元提示中以進(jìn)行后續(xù)優(yōu)化過(guò)程。

當(dāng) LLM 無(wú)法提出具有更好優(yōu)化分?jǐn)?shù)的新解決方案或達(dá)到最大優(yōu)化步驟數(shù)時(shí),優(yōu)化過(guò)程終止。 

圖片

圖 3 為一個(gè)示例展示。元提示包含兩個(gè)核心內(nèi)容,第一部分是先前生成的提示及其相應(yīng)的訓(xùn)練準(zhǔn)確率;第二部分是優(yōu)化問(wèn)題描述,包括從訓(xùn)練集中隨機(jī)選擇的幾個(gè)示例來(lái)舉例說(shuō)明感興趣的任務(wù)。 

圖片

本文首先展示了 LLM 作為「數(shù)學(xué)優(yōu)化」優(yōu)化器的潛力。在線性回歸問(wèn)題中的結(jié)果如表 2 所示:

圖片

接下來(lái),論文還探討了 OPRO 在旅行商( TSP )問(wèn)題上的結(jié)果,具體來(lái)說(shuō), TSP 是指給定一組 n 個(gè)節(jié)點(diǎn)及其坐標(biāo),TSP 任務(wù)是找到從起始節(jié)點(diǎn)開(kāi)始遍歷所有節(jié)點(diǎn)并最終返回到起始節(jié)點(diǎn)的最短路徑。

圖片

實(shí)驗(yàn)

實(shí)驗(yàn)中,本文將預(yù)訓(xùn)練的 PaLM 2-L 、經(jīng)過(guò)指令微調(diào)的 PaLM 2-L 以及 text-bison、gpt-3.5-turbo、gpt-4 作為 LLM 優(yōu)化器;預(yù)將訓(xùn)練的 PaLM 2-L 和 text-bison 作為評(píng)分器 LLM。

評(píng)估基準(zhǔn) GSM8K 是關(guān)于小學(xué)數(shù)學(xué)的,有 7473 個(gè)訓(xùn)練樣本和 1319 個(gè)測(cè)試樣本;Big-Bench Hard (BBH) 基準(zhǔn)包含算術(shù)推理以外的廣泛主題,包括符號(hào)操作和常識(shí)推理。

GSM8K 結(jié)果

圖 1 (a) 顯示了使用預(yù)訓(xùn)練的 PaLM 2-L 作為評(píng)分器和 PaLM 2-L-IT 作為優(yōu)化器的即時(shí)優(yōu)化曲線,可以觀察到優(yōu)化曲線整體呈上升趨勢(shì),在整個(gè)優(yōu)化過(guò)程中出現(xiàn)了幾次跳躍:

圖片

接下來(lái),本文展示使用 text-bison 評(píng)分器和 PaLM 2-L-IT 優(yōu)化器生成 Q_begin 指令的結(jié)果,本文從空指令開(kāi)始,這時(shí)的訓(xùn)練準(zhǔn)確率為 57.1,之后訓(xùn)練準(zhǔn)確率開(kāi)始上升。圖 4 (a) 中的優(yōu)化曲線顯示了類似的上升趨勢(shì),在此期間訓(xùn)練準(zhǔn)確率出現(xiàn)了一些飛躍:

圖片

BBH 結(jié)果

圖 5 直觀地顯示了所有 23 個(gè) BBH 任務(wù)與「讓我們一步一步思考」的指令相比,每個(gè)任務(wù)的準(zhǔn)確率差異。表明 OPRO 找到的指令優(yōu)于「讓我們一步一步思考」。在幾乎所有任務(wù)上都有很大優(yōu)勢(shì):本文找到的指令在使用 PaLM 2-L 評(píng)分器的 19/23 任務(wù)上以及使用 text-bison 評(píng)分器的 15/23 任務(wù)上表現(xiàn)優(yōu)于 5% 以上。

圖片

與 GSM8K 類似,本文觀察到幾乎所有 BBH 任務(wù)的優(yōu)化曲線都呈上升趨勢(shì),如圖 6 所示。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-08-29 15:19:09

CSS煙花動(dòng)畫(huà)

2009-07-06 19:29:37

云計(jì)算私有云服務(wù)器虛擬化

2013-03-18 16:09:27

JavaEEOpenfire

2012-03-22 10:33:33

思杰XenDesktop

2023-09-09 12:56:36

2011-06-07 16:03:48

匿名SQL Server

2022-09-30 15:37:19

Web網(wǎng)站服務(wù)器

2018-03-07 15:24:41

PythonMySQL

2011-05-10 09:19:55

數(shù)據(jù)庫(kù)設(shè)計(jì)

2011-04-25 15:22:26

數(shù)據(jù)庫(kù)設(shè)計(jì)

2017-08-24 08:31:41

2009-12-18 16:27:43

Cisco路由器配置

2019-11-04 10:06:19

MySQL索引

2010-07-12 17:10:23

Android應(yīng)用程序

2017-11-29 11:14:52

離線緩存URL協(xié)議緩存

2017-09-28 09:40:36

圖像分類準(zhǔn)確率

2017-07-15 21:10:58

CTOCEO技術(shù)

2009-12-17 08:57:28

Windows 7磁盤(pán)分區(qū)

2024-07-22 11:43:28

LVMPnetLab網(wǎng)絡(luò)

2025-04-08 09:30:00

SeataDocker分布式系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕一页二页 | 青青草华人在线视频 | 在线免费看黄 | 亚洲国产偷 | 岛国av一区二区 | 亚洲成人一区二区 | 亚洲精选久久 | 欧美激情在线观看一区二区三区 | 一色桃子av一区二区 | 亚洲人成一区二区三区性色 | 精品国产黄a∨片高清在线 成人区精品一区二区婷婷 日本一区二区视频 | 国产网站久久 | 性一交一乱一透一a级 | 欧美一级黑人aaaaaaa做受 | 人妖av | 逼逼网| 狠狠干综合视频 | 成人一区二区三区在线 | 日韩精品一区二区三区视频播放 | 久久在线 | 91精品国产91久久综合桃花 | 国产精品久久久久久一区二区三区 | 四季久久免费一区二区三区四区 | 国产精品久久久久久久久久了 | 男女免费视频网站 | 国产福利免费视频 | 欧美一级淫片免费视频黄 | 国产精品一区二区三区在线 | av黄色网| 99久热在线精品视频观看 | 91精品成人久久 | 亚洲精品久久久久avwww潮水 | 国产在线a视频 | 每日更新av | 日韩精品一区二区三区中文在线 | av在线电影网 | 成人午夜影院 | 午夜电影日韩 | 欧美午夜精品理论片a级按摩 | 亚洲精品不卡 | 99国内精品 |