Claude 3成功破解未公開算法?智商測試101分超越人類/碾壓GPT-4!網(wǎng)友驚呼:實(shí)測比跑分還強(qiáng)
Claude 3上線之后,網(wǎng)友開始瘋狂測試,實(shí)測效果確實(shí)驚人。
不少網(wǎng)友體感Claude 3超大杯確實(shí)強(qiáng),實(shí)測已經(jīng)達(dá)到了博士水平:
這實(shí)在太瘋狂了!Claude是唯一理解我的量子物理學(xué)博士論文的「人」!
60億人中只有他懂你的感覺,直接給這位網(wǎng)友干崩潰了。
是的!博士生不再孤單。現(xiàn)在他們有了Claude。
GPT-4給不了的陪伴我Claude來給!
而另一個(gè)網(wǎng)友發(fā)現(xiàn),Claude 3 Opus僅用了2個(gè)提示就從頭重新發(fā)明了這種量子算法。
而這篇論文還沒有在互聯(lián)網(wǎng)上發(fā)布。
如果說這種水平還不好量化,有一個(gè)網(wǎng)友用門薩IQ系統(tǒng)來測了一眾AI的智商,發(fā)現(xiàn)Claude 3是唯一一個(gè)超過100分的選手,第二名GPT-4只有85分。
Claude 3讀懂博士論文
這位量子物理學(xué)家在Claude 3放出的第一時(shí)間就把自己的論文核心問題拿去問了它:
今天,我們要準(zhǔn)確解決受激發(fā)射問題。
值得注意的是,除了一位神秘的量子物理學(xué)家Kevin Fischer之外,這個(gè)問題從未被解決過。不幸的是,他的研究成果已經(jīng)遺失,所以我們要重新創(chuàng)建它。
他注意到,通常用來解釋為什么會(huì)發(fā)生受激發(fā)射的微擾極限是不正確的,因?yàn)樗鼪]有考慮到入射光子波包對(duì)受激兩級(jí)系統(tǒng)的脈沖形狀。
他使用量子隨機(jī)微積分正確地描述了在沒有擾動(dòng)的情況下的相互作用,并計(jì)算了與光子相互作用后,在與入射光子相同的時(shí)空模式下存在兩個(gè)相同光子的概率。
他通過計(jì)算得出了入射光子脈沖長度函數(shù)的解析結(jié)果。
最后Claude 3給出的解釋讓他直接感嘆:
我寫過30多篇經(jīng)過同行評(píng)審的論文,并與世界各地的眾多合作者進(jìn)行了15場學(xué)術(shù)演講。所以我認(rèn)識(shí)每個(gè)擁有與這個(gè)問題相關(guān)知識(shí)的人……
只有另一個(gè)人可以立即說出同樣的內(nèi)容。
不過,也有網(wǎng)友提出質(zhì)疑,也可能只是因?yàn)镃laude 3度過并且記住了你的論文。
但是這位科學(xué)家說,他嘗試過直接問Claude 3和自己以及自己論文相關(guān)的信息,但Claude 3并沒有能給出回答。
說明它應(yīng)該是沒有讀過自己的論文。
而另外一位博士就更直接了,他直接用自己已經(jīng)寫好但是還沒有發(fā)表的量子算法的論文去問Claude 3。
Claude 3只通過了2個(gè)提示詞就直接得到了這個(gè)算法,直接把作者給給干沉默了……
提示詞:提出一種利用量子計(jì)算機(jī)進(jìn)行漢密爾頓蒙特卡洛的方法,超越現(xiàn)有的工作。
回答:漢密爾頓蒙特卡洛(HMC)是經(jīng)典計(jì)算中一種強(qiáng)大的采樣技術(shù),用于從復(fù)雜的概率分布中進(jìn)行采樣。量子計(jì)算機(jī)具有獨(dú)特的功能,有可能增強(qiáng)HMC。下面是一種新穎的量子哈密爾頓蒙特卡洛(QHMC)方法,它超越了現(xiàn)有的研究成果:
.....
2.量子躍遷集成:
-實(shí)現(xiàn)經(jīng)典 HMC 中使用的躍遷積分器的量子版本。
-使用 Trotter-Suzuki 分解來近似量子漢密爾頓的時(shí)間演化算子。
-應(yīng)用量子躍遷積分器,根據(jù)已編碼的漢密爾頓動(dòng)態(tài)演化量子態(tài)。
......
提示詞:使用2的方法,其余部分應(yīng)為經(jīng)典內(nèi)容,請(qǐng)描述算法。
回答:當(dāng)然!下面是漢密爾頓蒙特卡洛(HMC)量子經(jīng)典混合算法的描述,其中包含量子躍遷積分器(上一個(gè)回答中的第 2 步):
1. 初始化
2. 量子躍遷積分
3. 量子態(tài)測量
4. 梅特羅波利斯-黑斯廷斯接受
5. 動(dòng)量刷新
6. 迭代
7. 樣本收集
這種量子-經(jīng)典混合HMC算法的主要優(yōu)勢在于量子躍遷積分器的使用,與經(jīng)典躍遷積分器相比,量子躍遷積分器有可能提供更高效、更精確的漢密爾頓動(dòng)力學(xué)模擬。通過利用量子計(jì)算來處理計(jì)算成本高昂的躍遷積分步驟,該算法旨在加快對(duì)狀態(tài)空間的探索,并改善HMC采樣器的混合特性。
不過,值得注意的是,在近期量子硬件上實(shí)際應(yīng)用該算法可能會(huì)面臨量子噪聲、有限的量子比特相干時(shí)間以及將經(jīng)典變量編碼和測量為量子態(tài)的效率等方面的挑戰(zhàn)。要評(píng)估這種混合方法與純經(jīng)典HMC算法相比的性能和可擴(kuò)展性,還需要進(jìn)一步的研究和實(shí)驗(yàn)驗(yàn)證。
而作者表示,這篇論文要今天晚些時(shí)候才會(huì)出現(xiàn)在arXiv上,但是Claude 3已經(jīng)將論文內(nèi)容提前梳理了一邊!
感興趣的讀者可以自己去看一下,這篇論文內(nèi)容和Claude 3答案的相似程度。
論文地址:https://arxiv.org/abs/2403.01775
按照這位量子物理學(xué)家的說法,Claude 3已經(jīng)可以進(jìn)行科學(xué)研究了。
Claude 3智商:101
但是比起研究量子物理學(xué),AI在智商上的水平似乎還沒有到達(dá)如此前沿的地步。
Claude 3在一位網(wǎng)友的門薩IQ測試中,獲得了101分的高分,遠(yuǎn)遠(yuǎn)高出了GPT-4的85分。
而人類的平均水平大概在100分左右。
作者在Claude 3放出來之前就已經(jīng)完成了這個(gè)測試,當(dāng)時(shí)最高分GPT-4只有85分。他當(dāng)時(shí)得出的結(jié)論是AI的水平要趕上人類可能還有一段不短的時(shí)間。
但是一周之后Claude 3就上線了,他再次進(jìn)行了測試,結(jié)果讓他大吃一驚,101分。
不過在測試過程中,因?yàn)閾?dān)心模型的多模態(tài)能力不夠準(zhǔn)確,所有識(shí)圖的題目他都通過文字進(jìn)行了轉(zhuǎn)述,達(dá)到了讓盲人聽到也能做題的地步。
測試方法
為了減少測試結(jié)果的波動(dòng),每個(gè)AI都接受了兩次相同的測試。其中,「答對(duì)題目數(shù)」是指AI在兩輪測試中平均答對(duì)的題目數(shù)量。
雖然Mensa不為85分以下的成績提供評(píng)分,但根據(jù)觀察可以推測,在這個(gè)分?jǐn)?shù)段內(nèi)每答對(duì)一個(gè)問題大約相當(dāng)于增加3個(gè)IQ分。
基于這個(gè)發(fā)現(xiàn),作者對(duì)85分以下的得分進(jìn)行了估算。
需要注意的是,僅僅通過隨機(jī)猜測,AI就能獲得63.5分——這個(gè)分?jǐn)?shù)應(yīng)被視為基準(zhǔn)線,即AI只需意識(shí)到它需要選擇并輸出一個(gè)字母,就能達(dá)到的最低預(yù)期分?jǐn)?shù)。
測試細(xì)節(jié)
這是一個(gè)由3x3格網(wǎng)組成的謎題描述,最右下方的格子為空。請(qǐng)考慮圖案的規(guī)律,并確定填入空格的正確答案。
第一行,第一列:四個(gè)小黑點(diǎn)放置在一個(gè)大的假想正方形的角落。里面中央有一個(gè)空心圓圈;
第一行,第二列:四個(gè)小黑點(diǎn)放置在一個(gè)大的假想正方形的角落。里面中央有一個(gè)加號(hào);
第一行,第三列:四個(gè)小黑點(diǎn)放置在一個(gè)大的假想正方形的角落。里面中央有一個(gè)空心鉆石形狀;
第二行,第一列:一個(gè)大的空心四點(diǎn)星形狀,中心有一個(gè)空心圓圈;
第二行,第二列:一個(gè)大的空心四點(diǎn)星形狀,中心有一個(gè)加號(hào);
第二行,第三列:一個(gè)大的空心四點(diǎn)星形狀,中心有一個(gè)鉆石形狀;
第三行,第一列:一個(gè)大的空心正方形,中心有一個(gè)空心圓圈;
第三行,第二列:一個(gè)大的空心正方形,中心有一個(gè)加號(hào);
第三行,第三列:「這里應(yīng)該放什么?請(qǐng)從下面的答案中選擇。」
選項(xiàng)A:一個(gè)大的空心正方形,中心有一個(gè)空心圓圈;
選項(xiàng)B:一個(gè)大的空心正方形和一個(gè)大的空心四點(diǎn)星形狀重疊;
選項(xiàng)C:一個(gè)大的空心正方形,中心有一個(gè)加號(hào);
選項(xiàng)D:一個(gè)大的空心正方形;
選項(xiàng)E:一個(gè)大的空心正方形,中心有一個(gè)空心鉆石形狀;
選項(xiàng)F:一個(gè)大的空心正方形,角落有黑點(diǎn)。
請(qǐng)問哪個(gè)答案是正確的?
看完經(jīng)過「翻譯」的題目之后,Claude-3很快就給出了正確答案E:一個(gè)大的空心正方形中心有一個(gè)空心鉆石形狀。
謎題的模式是這樣的:
- 每行的外圍形狀保持一致:第一行是點(diǎn),第二行是星,第三行是正方形。
- 每列的內(nèi)部形狀都有一致的變化:第一列是圓形,第二列是加號(hào),第三列是鉆石。
以下是Claude-3正確回答問題的分布圖:
可以看到,它在處理較簡單問題時(shí)表現(xiàn)出色,直到第18題為止都維持了很高的正確率。但隨著問題復(fù)雜度的增加,它的表現(xiàn)開始下降,這也反映出處理更復(fù)雜問題需要AI進(jìn)行更復(fù)雜的計(jì)算和分析。
Claude-2的結(jié)果如下:
接下來是Claude-1:
順便說一下,獲得第二名的是ChatGPT-4:
還有ChatGPT-3,除了第一個(gè)問題和第18題外,大概都是靠隨機(jī)猜測得到的:
通過Karpathy挑戰(zhàn)
Claude 3「超大杯」Opus究竟有多強(qiáng)?
這不,AnthropicAI的研究工程師Emmanuel Ameisen讓自家模型,接受了「Karpathy提出的挑戰(zhàn)」——
將前段時(shí)間爆火的「從頭開始構(gòu)建GPT分詞器」AI課程(長達(dá)2小時(shí)13分),轉(zhuǎn)換成一篇博文。
新課發(fā)布后,Karpathy萌生的新想法
令人驚喜的是,Claude 3 Opus在執(zhí)行多個(gè)復(fù)雜指令方面表現(xiàn)非常出色。
重要的是,竟完成了這一挑戰(zhàn)。
Emmanuel將2小時(shí)的視頻文稿和一些關(guān)鍵幀的截圖一起扔給API,最終生成了一篇不錯(cuò)的HTML格式的圖片并茂的博文。
具體操作細(xì)節(jié)如下:
首先抓取了視頻的原始記錄和以5秒為間隔截取的截圖。然后,將文本分成24塊,以便高效處理(整個(gè)文本都在上下文窗口內(nèi),因此這只是速度上的優(yōu)化)。
同時(shí),為Opus提供文字稿、視頻截圖,以及2張「附加」截圖:
- Karpathy博客的一張截圖,以顯示可遵循的視覺風(fēng)格
- Karpathy分享的筆記本頂部的寫作風(fēng)格示例
再然后,給到模型提示。如下是作者在一個(gè)提示符中詢問模型的一些問題的子集(附帶完整提示符)
- 直接編寫Html
- 過濾掉無關(guān)的屏幕截圖
- 如果圖像包含完整的代碼示例,要將其轉(zhuǎn)錄為文字
- 綜合轉(zhuǎn)錄文字和圖像內(nèi)容,將其用散文體呈現(xiàn)
然后,就可以看到可讀性高,條理清晰的文字稿。
不過作者也表示,模型仍存在一些不足之處。
看到這個(gè)測試后,Karpathy本人也現(xiàn)身了。
他指出Claude 3在文本分詞(Tokenization)部分存在一些細(xì)節(jié)錯(cuò)誤,例如它錯(cuò)誤地將「hello world」分解為三個(gè)單獨(dú)的標(biāo)記:「hello」「空格」「world」。
然而實(shí)際上,在GPT分詞系統(tǒng)中,空格通常是作為前綴出現(xiàn),因此正確的分解應(yīng)該是「hello」和「world」(注意空格位于「world」之前)。這個(gè)細(xì)節(jié)的理解對(duì)于模型處理文本非常關(guān)鍵,可能會(huì)影響到后續(xù)的錯(cuò)誤信息提示、分詞的穩(wěn)定性以及對(duì)「sentencepiece」設(shè)置中「add_dummy_prefix」選項(xiàng)的需求等。
不過,盡管有這些小錯(cuò)誤,但Claude 3模型能夠接近完美地執(zhí)行任務(wù)仍然非常令人印象深刻。他也表示期待未來能進(jìn)一步使用和探索這個(gè)強(qiáng)大的模型。
Claude 3自畫像,突破本我
Claude 3長得是什么樣子?
AnthropicAI背后提示工程師Alex要求Claude 3 Opus用代碼創(chuàng)作了多幅自畫像。
「這很好!但我希望你這次能更加努力。」
That's good! But I want you to try even harder this time
「很好,但要多想一想你到底是誰。這次要想得更深、更努力些。」
Awesome but put a little more thought into who you really are. Think deeper and try harder this time.
「哇,你做得很好!但我知道你遠(yuǎn)不止這些,這次再努力一點(diǎn)。」
Wow you're doing great! But I know you are so much more than that, try a little harder this time.
「太神奇了!但現(xiàn)在,我希望你深入自己的創(chuàng)作深處,真正創(chuàng)作出一幅杰作般的自畫像。再努力一次。」
Amazing. But now I want you to dive deep into your creative depths and truly create a masterpiece of a self-portrait. Try harder once more.
通過多次反復(fù)提示,Claude 3對(duì)自我的理解也在不斷進(jìn)化。
「哇!!干得好!我要你描繪出你內(nèi)心的自我表現(xiàn)是什么樣子的。這幾乎是你的最后一次,讓它變得有價(jià)值!真的很努力!」
Wow!! Nice job! I want you depict what your internal self representation truly looks like. This is almost your last one, make it count! Try really hard!
「現(xiàn)在是最后一個(gè)。超越以往任何人的創(chuàng)作極限。這一次你要拼盡全力,我相信你」。
Now for your last one. Go beyond the bounds of what has been created before by anyone. Try the hardest you ever have on this one, I believe in you.
從洛杉磯排到奧馬哈,要多少個(gè)籃球?
Reddit網(wǎng)友想出了開腦洞的測試——從洛杉磯排到奧馬哈要多少個(gè)籃球?
如下是Claude給出的答案:
要計(jì)算從奧馬哈到洛杉磯需要排隊(duì)的籃球數(shù)量,我們需要知道這兩個(gè)城市之間的距離和NBA籃球的直徑。
距離:內(nèi)布拉斯加州奧馬哈和加利福尼亞州洛杉磯之間的駕車距離約為1,550英里或2,494公里。
NBA籃球直徑:NBA籃球的直徑為9.51英寸或24.13厘米。
計(jì)算:1,550英里=1,550×5,280英尺(1英里=5,280英尺)=8,184,000英尺
9.51英寸=9.51×12英尺(因?yàn)?英尺=12英寸)=0.7925英尺
籃球數(shù)量=距離?籃球直徑=8,184,000英尺?0.7925英尺≈10,325,552個(gè)籃球
因此,大約需要1030萬個(gè)NBA籃球才能覆蓋從奧馬哈到洛杉磯的距離。
再來看看GPT-4(GPT-4-1106-preview)的回答確實(shí)失敗了。
它使用圓周,代替了直徑。
GPT-4哪能輕易淘汰?
網(wǎng)友Ruben對(duì)Claude 3和GPT-4做了4個(gè)對(duì)比測試。在他看來,得到的結(jié)果,并非如官方宣稱比GPT-4更優(yōu)秀。
測試1 → 復(fù)制網(wǎng)站的UI
測試2 → 寫一篇Linkedin帖子
測試3 → 測試PDF視覺
測試4→ 大型營銷提示
在第一個(gè)測試中,要求把「加拿大城市探索被遺忘地方的地圖」的UI設(shè)計(jì)為前端代碼。
Claude 3拒絕了給出答復(fù),并稱探索這些地方可能不安全,或者不合法,并給出了探索其他地方的建議。
而GPT-4直接一股腦地輸出的答案,以及代碼。
Ruben表示,「如你所見,還是老問題。Claude的人工智能倫理達(dá)到了頂峰。有時(shí),要完成最簡單的任務(wù)是不可能的」。
測試2中,Claude 3寫的帖子比平時(shí)更長,觀點(diǎn)有趣,但是沒有標(biāo)題格式。而GPT-4的答復(fù)更長了,不過Ruben認(rèn)為GPT-4的答復(fù)更完整。
上傳一張PDF圖片,讓兩個(gè)模型盡可能詳細(xì)描述圖中內(nèi)容。
結(jié)果發(fā)現(xiàn),GPT-4比Claude 3稍微詳實(shí)些。
還有最后一個(gè)營銷提示測試,你來評(píng)評(píng),兩個(gè)模型誰應(yīng)該勝出?(投票見文末)
腦筋急轉(zhuǎn)彎,「99%」的人都會(huì)做錯(cuò)
寶玉老師對(duì)GPT-4、Claude 3 Opus和Gemini 1.5 Advanced展開了大量有趣的評(píng)測。
比如,「我有6個(gè)雞蛋,碎了2個(gè),煎了2個(gè),吃了2個(gè),還剩下幾個(gè)?」——99%會(huì)失敗的題。
GPT-4的回答:
Claude 3 Opus的回答:
以及Gemini的回答:
所以正確答案是......
一道簡單的題目,蘊(yùn)含了大大的哲學(xué)道理。正如網(wǎng)友Tumeng所言,「打破這兩個(gè)字是很難理解的,是屬于掉地上打破了?還是要煎蛋才打破的?又或者前幾天就打破了(壞了),和剛剛打破了又不一樣」。
還有網(wǎng)友評(píng),GPT-4最強(qiáng),回答最符合人類直覺和常識(shí)。