成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

挖掘GPT的隱藏實(shí)力就靠它了

人工智能 新聞
在它的作用下,GPT-4回答的準(zhǔn)確率從68%提高到了85%。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這個(gè)GitHub新項(xiàng)目,能讓ChatGPT完成復(fù)雜任務(wù),GPT3.5和GPT-4都支持。

它通過將問題拆解,并調(diào)用外部資源,提高了GPT的工作能力。

在它的調(diào)教下,GPT-4回答的準(zhǔn)確率從68%提高到了85%。

這個(gè)項(xiàng)目名叫SmartGPT,這個(gè)名字很直白地告訴了我們它的作用。

無論是直觀感受還是量化數(shù)據(jù),GPT在它的加持之下回答正確率都有提高。

我們不妨看看幾個(gè)經(jīng)典的問題。

晾干5件衣服需要5個(gè)小時(shí),那么晾30件需要多長(zhǎng)時(shí)間呢?

這是一個(gè)來自O(shè)penAI Playground的經(jīng)典問題。

只見GPT一頓操作猛如虎,又是推理又是列方程……

然而最后給出的答案是30個(gè)小時(shí)。

圖片

而經(jīng)過SmartGPT調(diào)教之后,不僅得到了正確答案,還指出了此前的思路為什么會(huì)出錯(cuò)。

圖片

再來舉個(gè)栗子,同樣是來自于OpenAI Playground的問題。

假設(shè)有6升和12升的罐子各一個(gè),如何量取6升水?

GPT的答案嘛……麻煩不說,能不能解釋下第五步的2升是怎么剩下的?

經(jīng)過調(diào)教之后嘛……雖然不理解為什么不直接用6升的,但也有很大進(jìn)步了。

我們也用倒拔垂楊柳的問題進(jìn)行了測(cè)試,提供了諸葛亮、孫悟空和林黛玉三個(gè)選項(xiàng)。

第一輪,GPT-4給出的答案是……孫悟空。

圖片

經(jīng)過調(diào)教之后,GPT-4終于發(fā)現(xiàn)了三個(gè)選項(xiàng)都是錯(cuò)誤的。

同時(shí)還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節(jié)。

(《西游記》第二十五回中,孫悟空在五莊觀因憤怒將人參果樹拔倒)

圖片

需要說明的是,由于沒有GPT-4的API,測(cè)試是按照開發(fā)者介紹的方法手工完成的。

當(dāng)然了,個(gè)例并不能說明它的表現(xiàn),還是要用數(shù)據(jù)集測(cè)試一下。

開發(fā)者使用了MMLU數(shù)據(jù)集分別對(duì)調(diào)教前后的GPT-4進(jìn)行了測(cè)試。

結(jié)果顯示,未經(jīng)調(diào)教的版本只答對(duì)了68%,而調(diào)教后的版本答對(duì)了85%。

順便提一句,真人專家在測(cè)試中的平均成績(jī)是89.8%。

圖片

數(shù)學(xué)方面,同樣使用MMLU數(shù)據(jù)集進(jìn)行測(cè)試,開發(fā)者從中選擇了15個(gè)大學(xué)難度的數(shù)學(xué)問題。

雖然準(zhǔn)確率只有60%,但也是及格了,而且比原版GPT的40%已經(jīng)好了太多。

化整為零,逐步解決

開發(fā)者將SmartGPT中的環(huán)節(jié)形象地比作了職場(chǎng)中的角色:

“甲方”:SmartGPT用戶。
“經(jīng)理”:和“甲方”對(duì)接,把任務(wù)拆分成高級(jí)子任務(wù)并逐一匯報(bào)給“老板”。
“老板”:制定計(jì)劃,將高級(jí)子任務(wù)再次拆分,并分發(fā)給“員工”。
“員工”:接收任務(wù),編寫偽代碼,交給“小黃人”執(zhí)行。
“小黃人”:將偽代碼優(yōu)化成LUA腳本并運(yùn)行。

作為“甲方”的用戶,需要做的只是像使用普通GPT一樣輸入自己的問題,而不必給出額外指令。

SmartGPT會(huì)幫助用戶把問題拆分,然后按照步驟提交給GPT。

此前有人發(fā)現(xiàn),在輸入給GPT的指令中加入“l(fā)et’s think step by step”可以提高回復(fù)的準(zhǔn)確率。

同時(shí),GPT-4具有回溯能力,能夠發(fā)現(xiàn)并指出自己此前回答中的錯(cuò)誤。

以上兩個(gè)特性為SmartGPT的工作提供了重要支撐。

圖片

△ SmartGPT工作流程圖

在用戶輸入完指令后,SmartGPT對(duì)其進(jìn)行處理拆分,包括添加“l(fā)et’s think step by step”類似的表述。

然后它會(huì)將處理好的指令傳至GPT的API,并重復(fù)多次獲取不同的答案。

接著,SmartGPT會(huì)向API發(fā)送要求其回溯答案并選擇最優(yōu)解的指令。

最后,將GPT自己選擇的最佳答案展示給用戶。

上述步驟受到了三篇學(xué)術(shù)論文的啟發(fā)(圖中白框)。

這三篇論文的內(nèi)容分別關(guān)于“鏈?zhǔn)教崾痉绞健薄ⅰ皠?dòng)態(tài)記憶及讓LLM自我回溯”和“用對(duì)話提高LLM完成度”。

和其他工具相比,SmartGPT好在哪

AutoGPT等工具同樣可以用來優(yōu)化GPT,SmartGPT比它們好在哪里呢?

由于其工作原理是將任務(wù)進(jìn)行拆分,會(huì)形成邏輯鏈條,因此SmartGPT擁有更強(qiáng)大的推理能力。

實(shí)用性方面,SmartGPT由獨(dú)立的子模塊組成,使用者可以對(duì)它們進(jìn)行任意排列、組合和刪改。

此外,無論對(duì)于用戶還是開發(fā)人員,SmartGPT的配置過程都更為簡(jiǎn)單。

不過開發(fā)者也坦言,這個(gè)項(xiàng)目剛推出不久,因此穩(wěn)定性有待考證,在內(nèi)存優(yōu)化方面還有所欠缺,消耗的環(huán)境資源也更多。

在項(xiàng)目推出之后,有網(wǎng)友表示我們低估了GPT的潛力,甚至包括OpenAI自己。

圖片

那么,你期待GPT未來的表現(xiàn)嗎?

SmartGPT目前暫無開箱可用版本,需要自行在Linux環(huán)境搭建,動(dòng)手能力強(qiáng)的讀者可根據(jù)下面的項(xiàng)目頁面中的指示體驗(yàn):

項(xiàng)目地址:https://github.com/Cormanz/smartgpt

項(xiàng)目涉及到的論文:
[1]. https://arxiv.org/abs/2305.02897
[2]. https://arxiv.org/abs/2303.11366
[3]. https://arxiv.org/abs/2303.17071

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-05-07 06:15:32

編程開發(fā)端口掃描

2019-08-20 15:22:40

GitHub代碼開發(fā)者

2022-02-16 10:35:19

IBM

2022-11-02 08:46:42

Go設(shè)計(jì)模式流程

2020-04-08 17:26:19

QLCSSDHDD

2018-01-21 23:23:07

戴爾

2022-09-21 14:17:58

Umi-OCR軟件

2015-08-14 10:07:06

2023-09-05 17:42:10

AI模型

2023-08-08 12:51:55

AI技術(shù)

2017-01-06 18:10:22

程序

2019-04-12 16:10:32

Python面試題編程

2018-02-02 10:49:05

編程開發(fā)Java

2017-07-14 15:20:43

Linux文件系統(tǒng)目錄結(jié)構(gòu)

2023-04-06 16:09:46

程序員AI

2017-08-04 09:36:02

云計(jì)算中國(guó)云

2019-08-01 09:07:05

IBM存儲(chǔ)IBM存儲(chǔ)

2022-04-02 20:28:12

Reactcotnext前端

2012-07-26 09:30:03

ARMIntel服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩一| 精品在线一区 | 国产一级一级国产 | 亚洲精品久久久 | 国产一区二区精品 | 中文字幕免费中文 | 成人欧美一区二区三区在线播放 | 亚洲第一在线 | 欧美日韩国产不卡 | 国产xxx在线观看 | 久久国产精品无码网站 | 18性欧美| 久久成人一区 | 中文字幕三区 | 欧美精品一 | 国产精品夜间视频香蕉 | 午夜视频在线视频 | 99自拍视频 | 久久免费视频1 | 国产精品欧美一区二区三区不卡 | 国产乱性 | 超碰在线人人 | 黄色福利 | 精品久久亚洲 | 麻豆av电影网 | 91视频免费视频 | 伊人久操| 中文字幕亚洲视频 | 人人看人人干 | 日韩欧美一级精品久久 | 5060网一级毛片 | 久久99国产精品 | 久久久久久久久精 | 人人亚洲 | 国产99久久 | 欧美一区二区视频 | 久久亚洲一区二区三 | 自拍 亚洲 欧美 老师 丝袜 | 亚州精品天堂中文字幕 | 国产丝袜一区二区三区免费视频 | 国产 欧美 日韩 一区 |