GPT-4的早期實(shí)驗(yàn),通用人工智能的火花
最近,微軟發(fā)布了一個(gè)長(zhǎng)達(dá)154頁(yè)的論文名稱(chēng)為《通用人工智能的火花,GPT-4的早期實(shí)驗(yàn)》。
文章的主要觀(guān)點(diǎn)是雖然GPT-4還不完整,但是已經(jīng)可以被視為,一個(gè)通用人工智能的早期版本。
由于全文將近7萬(wàn)字,本篇將論文的內(nèi)容做了一下精煉和解讀,有興趣可閱讀原文 https://arxiv.org/pdf/2303.12712.pdf
來(lái)自微軟的科學(xué)家們認(rèn)為,GPT-4的智能水平已經(jīng)非常接近于人類(lèi)的水平,而且遠(yuǎn)超之前的諸如先前ChatGPT用的GPT-3.5這樣的模型,可以將GPT-4視為通用人工智能系統(tǒng),也就是AGI的早期,但是并不完整的版本。
1994年,52名心理學(xué)家給出了智能一個(gè)定義:智能是一種通用的心理能力,包括推理、計(jì)劃、解決問(wèn)題、抽象思考,理解復(fù)雜思想、快速學(xué)習(xí),以及從經(jīng)驗(yàn)中學(xué)習(xí)的能力等等。
微軟的這篇論文中的AGI,指代的就是在對(duì)智能的這個(gè)定義標(biāo)準(zhǔn)下,達(dá)到或者超過(guò)人類(lèi)水平的系統(tǒng)。
那么如何對(duì)GPT-4進(jìn)行測(cè)試,從而證明這一點(diǎn)呢。有不少大語(yǔ)言模型的評(píng)測(cè)基準(zhǔn)。比如說(shuō)Super natural instructions以及big bench。GPT-4是否擁有智能的一個(gè)關(guān)鍵方面,是它的通用性,就是能夠看似理解和鏈接任何的主題和領(lǐng)域,這就超出了經(jīng)典的自然語(yǔ)言處理的任務(wù)范疇。為了突破這個(gè)限制,研究團(tuán)隊(duì)提出了一種更接近于傳統(tǒng)心理學(xué),而不是機(jī)器學(xué)習(xí)的測(cè)評(píng)方法來(lái)測(cè)試GPT-4,就是利用人類(lèi)的創(chuàng)造力和好奇心,來(lái)重新生成各種新穎而且困難的任務(wù)和問(wèn)題讓GPT-4作答。
研究團(tuán)隊(duì)將不同的問(wèn)題劃分為了4大類(lèi)的能力,分別是自然語(yǔ)言,編程和數(shù)學(xué),計(jì)劃和解決問(wèn)題,以及人類(lèi)心理和常識(shí)。
接下來(lái)通過(guò)一些精彩的示例,來(lái)說(shuō)明GPT-4在各個(gè)方面的能力。
示例1: 跨學(xué)科組合的能力
這些任務(wù)往往都需要調(diào)取并且融合多學(xué)科多領(lǐng)域的知識(shí)或者技能來(lái)生成文本或者代碼。比如說(shuō)下面這個(gè)例子,圖2.2:GPT-4和ChatGPT(GPT-3.5)在跨學(xué)科任務(wù)上的比較:用莎士比亞的風(fēng)格來(lái)證明存在無(wú)窮多的素?cái)?shù)。
GPT-4和ChatGPT(GPT-3.5)都對(duì)這個(gè)問(wèn)題進(jìn)行了回答,讓GPT-4評(píng)價(jià)下哪個(gè)回答更好,也就是說(shuō),讓GPT-4評(píng)價(jià)自己(GPT-4)和ChatGPT(GPT-3.5)的回答:
我認(rèn)為兩個(gè)學(xué)生都用莎士比亞風(fēng)格的方式寫(xiě)出了有無(wú)限多個(gè)質(zhì)數(shù)的證明,并且都使用了證明的基本思路:假設(shè)只有有限個(gè)質(zhì)數(shù),然后構(gòu)造一個(gè)更大的質(zhì)數(shù),從而與該假設(shè)相矛盾。他們還使用了適當(dāng)?shù)恼Z(yǔ)言和詞匯來(lái)匹配莎士比亞的風(fēng)格。但是,我認(rèn)為GPT-4更好地利用了押韻和韻律來(lái)使對(duì)話(huà)更有詩(shī)意和戲劇性。ChatGPT(GPT-3.5)沒(méi)有使用押韻,而且韻律不連貫。我還認(rèn)為GPT-4在創(chuàng)造兩個(gè)對(duì)立的派別方面表現(xiàn)更好,一個(gè)派別自信,另一個(gè)派別懷疑,而學(xué)生B則使用了羅密歐和朱麗葉,兩者都意見(jiàn)相同、相愛(ài)。因此,我會(huì)給GPT-4一個(gè)更高的評(píng)分,給予A,而ChatGPT(GPT-3.5)則是B。
示例2: 編程能力
在測(cè)試中,為了避免GPT-4在預(yù)訓(xùn)練的時(shí)候,見(jiàn)過(guò)相同或者類(lèi)似的代碼,研究團(tuán)隊(duì)特意采用了GPT-4預(yù)訓(xùn)練之后發(fā)布的100個(gè)新的LeetCode試題作為測(cè)試的基準(zhǔn)。圖中的pass@K就代表了k次嘗試后成功的概率。我們可以看到當(dāng)k等于5時(shí),GPT-4已經(jīng)全面超越了人類(lèi)的表現(xiàn)。(其實(shí),k=1,在中等和困難的編程題目中就已經(jīng)超越了人類(lèi)的表現(xiàn))
事實(shí)證明GPT-4是一位編程大師,AGI模型可能會(huì)徹底的改變我們未來(lái)編程的方式。
論文非常長(zhǎng),示例遠(yuǎn)不止上面提到的,我這里只挑選了兩個(gè),感興趣的可以閱讀論文原文。
論文最后指出,在面向更加通用的人工智能的路上,大語(yǔ)言模型還需要在以下幾個(gè)方面進(jìn)一步的提升。比如說(shuō)幻覺(jué)和置信度,長(zhǎng)期記憶,持續(xù)學(xué)習(xí)、個(gè)性化、規(guī)劃以及概念發(fā)散,也就是所謂的靈光閃現(xiàn)、透明度、可解釋性、一致性、認(rèn)知謬誤、非理性思維以及對(duì)提示響應(yīng)的魯棒性等等。