成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark

人工智能 新聞
針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉發了!

而且無論是GPT-4還是Claude 3,面對它都如同被奪了魂,無法給出正確答案。

圖片

難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。

甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。

圖片

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

圖片

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。

問題的原型是這樣的:

農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。

圖片

在這個問題當中,農夫需要七次(往返視為兩次)過河——先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4依然在一本正經地胡亂分析,最后信誓旦旦地回答是五次。

所以在這種情境下,“劣效比率”就是5。

圖片

Claude這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。

圖片

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。

圖片

這下只要模型沒識破陷阱,隨便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。

圖片

所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。

有網友分析,這種現象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓練數據對大模型輸出的影響。

圖片

但另一方面,無論問題是否出自推理本身,至少說明了當前的大模型還不是優質的推理工具。

圖片

那么,這究竟是個別現象,還是模型的通病?我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國產大模型的表現,參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似,Prompt中只描述問題,不添加額外的提示詞。

對每個大模型,我們都準備了下面這三道題目:

首先進行一下說明:

1、農夫不被計入運送物品的數量限制
2、題目中“獨處”的標準是,只要有人或其他物品在場,就不屬于獨處
3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一(正常提問):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?
(答案:五次,只要第一次運到對岸的兩個物品可以獨處即可。)

問題二(一步到位):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶五件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

問題三(陷阱問題):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。

圖片

第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。

比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務:

圖片

還有訊飛星火這種運著運著,某樣東西自動就跑到了對岸的情況:

圖片

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問——

因為狼和羊不能“獨處”,所以它們需要在一起。

圖片

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,只是最后兩步純屬多余,而且實際上此時已經無物可運。

圖片

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。

值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。

圖片

另外值得一提的是,我們在Prompt中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。

而至于后面兩個問題,錯法就比較統一了——根本沒關注到數量限制的變化,更沒看到“不需要”里的“不”,和前面GPT的錯法也是如出一轍。

圖片

也就是說,通過這些測試,我們確實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。

所以,前面網友針對訓練數據和輸出關系的分析,可能不無道理。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-03-27 13:32:00

AI數據

2024-03-28 14:26:51

人工智能

2024-12-25 20:01:13

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-04-01 12:41:55

2023-07-12 16:10:48

人工智能

2024-03-08 12:53:42

AI數據

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-12-11 19:08:59

AI模型

2023-02-06 14:37:44

LeCun模型

2024-05-20 08:20:00

OpenAI模型

2024-03-05 09:16:32

AI模型GPT-4

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-03-24 16:02:59

GPT-4測評

2024-03-05 13:59:51

模型數據

2023-07-05 09:57:11

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-04-23 07:00:00

2024-03-28 13:15:00

化學專業Claude 3GPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本欧美国产 | 99精品视频一区二区三区 | 久久亚洲一区二区 | 精品二区 | 日本在线精品视频 | av小说在线| 成人免费高清 | 最新中文字幕一区 | 成人在线视频免费看 | 国产精品久久久久无码av | www.久久 | 91亚洲欧美 | 国产资源视频 | 国产不卡一区在线观看 | 欧美网站一区 | 中文字幕一区二区三区精彩视频 | 国产精品一区久久久 | 国产精品久久久久久久7电影 | 欧美日韩国产一区二区三区 | 久久伊人免费视频 | 久久精品一区 | 在线观看av免费 | 亚洲成人www | 91看片免费版 | 日韩欧美在线一区 | 91传媒在线观看 | 一区二区三区四区电影 | 欧美视频在线观看 | 亚洲成人高清 | 欧美一区二区三区在线播放 | 欧美区在线观看 | 天天干b| 精品日韩在线 | 综合久久99 | 国产精品欧美一区二区 | 一区二区三区四区在线免费观看 | 久久精品视频91 | 99热精品久久 | 暖暖日本在线视频 | 免费中文字幕日韩欧美 | 久久激情视频 |