成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

哄一哄能讓GPT-3準(zhǔn)確率暴漲61%!谷歌&東京大學(xué)研究震驚四座

人工智能 機(jī)器學(xué)習(xí)
一覺(jué)醒來(lái),機(jī)器學(xué)習(xí)社區(qū)炸了鍋。因?yàn)樽钚卵芯堪l(fā)現(xiàn),只要對(duì)GPT-3說(shuō)一句“讓我們一步一步地思考”,就能讓它正確回答出以前不會(huì)的問(wèn)題。

一覺(jué)醒來(lái),機(jī)器學(xué)習(xí)社區(qū)炸了鍋。

因?yàn)樽钚卵芯堪l(fā)現(xiàn),只要對(duì)GPT-3說(shuō)一句“讓我們一步一步地思考”,就能讓它正確回答出以前不會(huì)的問(wèn)題。

比如下面這個(gè)例子:

16個(gè)球中有一半是高爾夫球,這些高爾夫球中有一半是藍(lán)色的,一共有幾個(gè)藍(lán)色的高爾夫球?

(問(wèn)題不難,但要注意這是零樣本學(xué)習(xí),也就是說(shuō)AI訓(xùn)練階段從沒(méi)見(jiàn)過(guò)同類(lèi)問(wèn)題。)

如果要求GPT-3直接寫(xiě)出“答案是幾”,它會(huì)給出錯(cuò)誤答案:8。

但加上讓我們一步一步地思考這句“咒語(yǔ)”后,GPT-3就會(huì)先輸出思考的步驟,最后給出正確答案:4!

而且這并不是巧合,研究團(tuán)隊(duì)在論文中做了充分的驗(yàn)證。

上面的問(wèn)題出自經(jīng)典的MutiArith數(shù)據(jù)集,專(zhuān)門(mén)考驗(yàn)語(yǔ)言模型做數(shù)學(xué)題的能力,GPT-3本來(lái)在零樣本場(chǎng)景下準(zhǔn)確率僅有17%。

這篇論文中總結(jié)了9個(gè)最有效的提示詞,其中換著花樣讓GPT-3逐步思考的前6個(gè)都讓準(zhǔn)確率暴漲到70%以上。

甚至一句最簡(jiǎn)單的“Let’s think”(讓我們想一想)都能漲到57.5%。

這感覺(jué),就像是幼兒園阿姨在哄小朋友……

這個(gè)技巧似乎也不需要對(duì)GPT-3做魔改,已經(jīng)有人在OpenAI官方Demo上成功復(fù)現(xiàn),甚至換成中文也行。

英文題干中文提示,GPT-3給出正確中文答案。

最早把這篇論文轉(zhuǎn)發(fā)到社交網(wǎng)絡(luò)的谷歌研究員表示,新的all you need增加了。

看到這里,各路大佬紛紛腦洞大開(kāi),玩起了梗。

如果鼓勵(lì)A(yù)I“你能行的,我相信你”會(huì)怎樣?

威脅AI一下說(shuō)“時(shí)間不多了”或者“你頭上有把槍”又會(huì)如何?

對(duì)AI說(shuō)“開(kāi)車(chē)穩(wěn)一點(diǎn)”會(huì)成為自動(dòng)駕駛解決方案嗎?

還有人提出,這簡(jiǎn)直和科幻故事《銀河系漫游指南》的劇情一樣,實(shí)現(xiàn)通用人工智能的關(guān)鍵是知道如何正確地向AI提問(wèn)。

那么,這種神奇現(xiàn)象究竟怎么回事?

語(yǔ)言大模型是零樣本推理者

發(fā)現(xiàn)這個(gè)現(xiàn)象的是谷歌大腦與東京大學(xué)的合作研究,探索了語(yǔ)言大模型在零樣本場(chǎng)景下的表現(xiàn)。

論文標(biāo)題《語(yǔ)言大模型是零樣本推理者》還致敬了GPT-3的《語(yǔ)言模型是少樣本學(xué)習(xí)者》。

所用方法屬于Chain of Thought Prompting (思維鏈路提示,以下簡(jiǎn)稱(chēng)CoT),今年一月剛由谷歌大腦團(tuán)隊(duì)提出。

最早的CoT應(yīng)用于少樣本學(xué)習(xí),在提問(wèn)的同時(shí)給一個(gè)分步驟回答的示例來(lái)引導(dǎo)AI。

這次的最新研究提出零樣本CoT,主要改動(dòng)是簡(jiǎn)化了示例的部分。

  • 第一步,把題干改寫(xiě)成“Q:xxx,A:xxx”的形式,其中觸發(fā)句A可以提取出語(yǔ)言模型的思考過(guò)程。
  • 第二步屬于額外實(shí)驗(yàn),增加了“答案是……”的提示促使語(yǔ)言模型給出最終答案。

這樣做最大的好處是通用,不再需要對(duì)不同問(wèn)題類(lèi)型提供專(zhuān)用的示例。

論文中對(duì)各類(lèi)問(wèn)題做了充分實(shí)驗(yàn),包括12項(xiàng)測(cè)試:

  • 6個(gè)數(shù)學(xué)問(wèn)題測(cè)試集,SingleEq、AddSub、SVAMP和更有挑戰(zhàn)的MultiArith, AQUA-RAT, GSM8K。
  • 2個(gè)常識(shí)推理測(cè)試集,CommonsenseQA和StrategyQA。
  • 2個(gè)符號(hào)推理測(cè)試集,Last Letter Concatenation和Coin Flip。
  • 以及BIG-bench中的日期理解問(wèn)題、跟蹤亂序物體任務(wù)。

與普通的零樣本學(xué)習(xí)相比,零樣本CoT在其中10項(xiàng)中取得更好效果。

△右側(cè)值為額外實(shí)驗(yàn)結(jié)果

在比較有難度的MultiArith和GSM8K數(shù)學(xué)測(cè)試中,用GPT-3最新版本Text-davinci-002 (175B)做了更深入實(shí)驗(yàn)。

如果給8次嘗試機(jī)會(huì)取最好結(jié)果,還能進(jìn)一步提升準(zhǔn)確率至93%。

在錯(cuò)誤結(jié)果分析中研究人員還發(fā)現(xiàn),很多問(wèn)題中其實(shí)AI的推理過(guò)程是正確的,只是答案無(wú)法收斂至唯一確定時(shí)會(huì)給出多個(gè)備選。

論文的最后,研究團(tuán)隊(duì)提出這項(xiàng)研究不僅可以作為零樣本CoT的基線,更希望讓學(xué)界認(rèn)識(shí)到在構(gòu)建微調(diào)數(shù)據(jù)集和少樣本提示模版之前,充分發(fā)掘語(yǔ)言大模型零樣本能力的重要性。

研究團(tuán)隊(duì)來(lái)自東京大學(xué)松尾研究室。



負(fù)責(zé)人松尾豐教授,同時(shí)是軟銀董事會(huì)中的第一位人工智能專(zhuān)家。

團(tuán)隊(duì)成員中的客座教授顧世翔來(lái)自谷歌大腦團(tuán)隊(duì),顧世翔本科師從三巨頭之一Hinton,博士畢業(yè)于劍橋大學(xué)。

加點(diǎn)“魔法”已經(jīng)成為AI圈新潮了

零樣本CoT究竟為何起作用還有待探索。

不過(guò)有人實(shí)驗(yàn)得出,這種辦法似乎只對(duì)GPT-3(text-davinci-002)比較有效,他嘗試了001版本,發(fā)現(xiàn)收效甚微。

他列出了一個(gè)自己做的例子。

提問(wèn):請(qǐng)將machine,learning中每個(gè)單詞的最后一個(gè)字母連起來(lái)。

GPT-3在提示下給出的答案是連起來(lái)了兩個(gè)單詞中的所有字母。

對(duì)此,作者之一顧世翔回復(fù)表示,其實(shí)“咒語(yǔ)”對(duì)初始版、改良版的GPT-3都有效果,這些結(jié)果在論文中也有體現(xiàn)。

也有人發(fā)出質(zhì)疑,表示難道深度學(xué)習(xí)變成了一場(chǎng)找“神奇咒語(yǔ)”的游戲?

同時(shí),我們?cè)谕虏坳?duì)伍里又看到了馬庫(kù)斯的身影。

他也列出了一個(gè)失敗的例子,GPT-3在“咒語(yǔ)”加持下也沒(méi)弄明白,莎莉的牛到底會(huì)不會(huì)起死回生……

不過(guò)值得注意的是,類(lèi)似這種稍微給AI加點(diǎn)小魔法,提升效果立竿見(jiàn)影的例子已經(jīng)不稀奇了。

有網(wǎng)友分享,自己用GPT-3時(shí)加幾個(gè)中間命令,確實(shí)能得到更滿(mǎn)意的結(jié)果。

此前谷歌和MIT的研究人員發(fā)現(xiàn),無(wú)需更改底層架構(gòu),只要訓(xùn)練語(yǔ)言模型會(huì)像程序員debug時(shí)那樣“打斷點(diǎn)”,模型讀代碼、做算術(shù)的能力唰唰唰地就上去了。

原理也非常簡(jiǎn)單,就是在計(jì)算步驟較多的程序里,讓模型把每一步都編碼成文本,并將它們記錄到一個(gè)稱(chēng)為“便簽”的暫存器中。

由此一來(lái),模型的計(jì)算過(guò)程變得更加清晰有序,性能自然大幅提升。

還有本項(xiàng)實(shí)驗(yàn)中用來(lái)測(cè)試的Instruct GPT-3,也是一個(gè)典型的例子。

只需讓GPT-3從人類(lèi)反饋中強(qiáng)化學(xué)習(xí),它就能明顯改善答非所問(wèn)的情況。

具體來(lái)看就是先用一些人類(lèi)的示范回答微調(diào)模型,然后收集某個(gè)問(wèn)題的幾組不同輸出數(shù)據(jù),人工對(duì)幾組答案進(jìn)行排序,并在此數(shù)據(jù)集上訓(xùn)練獎(jiǎng)勵(lì)模型。

最后,使用RM作為獎(jiǎng)勵(lì)函數(shù),近端策略?xún)?yōu)化(PPO)算法微調(diào)GPT-3策略,以強(qiáng)化學(xué)習(xí)方法最大化獎(jiǎng)勵(lì)。

包括引爆這次話(huà)題的推特博主Aran,正是當(dāng)初發(fā)現(xiàn)加一句“虛幻引擎”就能讓AI生成圖像畫(huà)質(zhì)飛升的那位。

前谷歌機(jī)器人大佬Eric Jang此前也發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)也能運(yùn)用類(lèi)似的思維來(lái)提升計(jì)算效率。

也有人表示,這種用在AI上的技巧,不正是自己平常動(dòng)腦時(shí)會(huì)用的嗎?

實(shí)際上,此前Bengio就從腦科學(xué)入手,提出AI的運(yùn)轉(zhuǎn)模式應(yīng)該像人類(lèi)動(dòng)腦模式一樣。

人類(lèi)的認(rèn)知任務(wù)可以分為系統(tǒng)1認(rèn)知和系統(tǒng)2認(rèn)知。

系統(tǒng)1認(rèn)知任務(wù),是指那些無(wú)意識(shí)完成的任務(wù)。比如你可以馬上辨別出手里拿的是什么東西,但是卻無(wú)法和別人解釋?zhuān)约菏窃趺赐瓿蛇@個(gè)過(guò)程的。

系統(tǒng)2認(rèn)知任務(wù),是指人類(lèi)大腦需要按照一定步驟完成的認(rèn)知。比如做一道加減法運(yùn)算,你可以很清楚地解釋最終答案是如何得出的。

而這次加的“咒語(yǔ)”,正是讓AI更進(jìn)一步,學(xué)會(huì)按步驟來(lái)思考。

面對(duì)這樣的趨勢(shì),有學(xué)者認(rèn)為“提示工程正在取代特征工程”。

那么“提示詞獵人”會(huì)成為下一代NLP研究者的外號(hào)么?

論文地址:??https://arxiv.org/abs/2205.11916??

參考鏈接:

[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993

[2]https://evjang.com/2021/10/23/generalization.html

責(zé)任編輯:未麗燕 來(lái)源: 量子位
相關(guān)推薦

2010-06-28 09:27:58

Tsubame 2.0超算

2023-03-20 10:19:25

ChatGPT數(shù)學(xué)

2023-10-14 13:09:53

谷歌模型

2024-08-02 13:14:51

2018-11-14 10:01:30

谷歌開(kāi)源機(jī)器學(xué)習(xí)

2023-10-19 08:30:56

模型搜索

2015-07-23 11:49:31

程序猿

2025-01-21 08:00:00

2022-05-31 10:34:04

研究訓(xùn)練模型

2025-05-21 13:56:37

模型圖像AI

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器

2023-11-20 21:56:04

AI推理

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2012-02-23 09:41:48

云計(jì)算遷移安全

2023-10-13 13:12:44

2021-06-04 16:15:36

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-12-14 14:55:51

模型數(shù)字

2019-11-20 15:01:55

開(kāi)源技術(shù) 趨勢(shì)

2025-04-01 09:25:00

2011-12-27 09:04:46

云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99re热精品视频 | 成人精品啪啪欧美成 | 日韩国产一区二区三区 | 一区二区三区国产好 | 99久久精品国产一区二区三区 | 国产一区二区 | 日日操视频 | 青青草av网站 | 免费毛片www com cn | 中文字幕一区在线观看视频 | 99久久精品一区二区成人 | 久久精品国产久精国产 | 56pao在线| 久草日韩| 国产成人99久久亚洲综合精品 | 亚洲国产精品久久久 | 国产成人精品一区二区三区在线观看 | 美日韩精品 | 97国产精品视频人人做人人爱 | 国产成人99av超碰超爽 | 免费亚洲一区二区 | 在线看91| 中文二区 | 亚洲第1页| 国产黄色精品在线观看 | 久久av一区 | 国产精品爱久久久久久久 | 欧美a∨ | 欧美精品一区二区三区一线天视频 | 免费特级黄毛片 | 成人免费一级视频 | 一级欧美视频 | 美女爽到呻吟久久久久 | 国产日韩欧美精品一区二区三区 | 亚洲综合色丁香婷婷六月图片 | 亚洲精品一区国产精品 | 久久鲁视频 | 亚洲一区二区三区免费在线 | 欧美性久久 | 激情六月丁香婷婷 | 成人性视频在线 |