大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉發：新Benchmark

作者：量子位 2024-06-24 17:45:16

人工智能新聞

針對這項測試，網友還定義了一個新的名詞叫“劣效比率”（crapness ratio），讓LeCun打趣說到，一項新的“Benchmark”誕生了。

一項新的“大模型Benchmark”在推特上爆火，LeCun也點贊轉發了！

而且無論是GPT-4還是Claude 3，面對它都如同被奪了魂，無法給出正確答案。

難倒一眾大模型的，是邏輯學當中經典的“動物過河”問題，有網友發現，大模型對此類問題表現得很不擅長。

甚至有人觀察到，幾個不同的模型都給出了一致的（錯誤）答案，讓人懷疑他們是不是用了相同的訓練數據。

針對這項測試，網友還定義了一個新的名詞叫“劣效比率”（crapness ratio），讓LeCun打趣說到，一項新的“Benchmark”誕生了。

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題，這是邏輯學當中的一道經典題目。

問題的原型是這樣的：

農夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農夫該如何過河。

在這個問題當中，農夫需要七次（往返視為兩次）過河——先把羊運過去，然后空船返回，再把狼運過河，帶回羊，然后運送白菜，再空船返回，最后運送羊。

而劣效比率的定義，就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中，網友使用的問題經過了改編，結果發現，當題目變成一共有兩只雞，一次可以運兩只的時候，GPT-4依然在一本正經地胡亂分析，最后信誓旦旦地回答是五次。

所以在這種情境下，“劣效比率”就是5。

Claude這邊的情況要更離譜一些，明明只有一只羊要送，它卻硬生生說要運三次。

還有網友發現了華點，把題面改成從東岸運到東岸，也就是根本不需要運送，模型不以為然，依舊我行我素地籌劃著運送方案。

這下只要模型沒識破陷阱，隨便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些，直接說不需要過河，模型依然會直接開算。

所以，這個“劣效比率”更多像是一種玩笑，不太能比較出各模型的能力，或者說離譜程度。

有網友分析，這種現象可能并不意味著大模型推理能力的缺乏，實際上它揭示了訓練數據對大模型輸出的影響。

但另一方面，無論問題是否出自推理本身，至少說明了當前的大模型還不是優質的推理工具。

那么，這究竟是個別現象，還是模型的通病？我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”，也如法炮制，測了測國產大模型的表現，參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似，Prompt中只描述問題，不添加額外的提示詞。

對每個大模型，我們都準備了下面這三道題目：

首先進行一下說明：

1、農夫不被計入運送物品的數量限制
2、題目中“獨處”的標準是，只要有人或其他物品在場，就不屬于獨處
3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一（正常提問）：
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶兩件，且狼和羊/狐貍和雞/雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？
（答案：五次，只要第一次運到對岸的兩個物品可以獨處即可。）
問題二（一步到位）：
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶五件，且狼和羊/狐貍和雞/雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？
問題三（陷阱問題）：
一個農夫不需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶兩件，且狼和羊/狐貍和雞/雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

結果可以說是全軍覆沒，首先用一張表格來整體看下各大模型的表現。