成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型集體失智!9.11和9.9哪個大,幾乎全翻車了

人工智能 新聞
一覺醒來,一眾響當當的大模型開始認為“9.11>9.9”了?

沒眼看……“9.11和9.9哪個大”這樣簡單的問題,居然把主流大模型都難倒了??

強如GPT-4o,都堅定地認為9.11更大。

圖片

谷歌Gemini Advanced付費版,同樣的口徑。

圖片

新王Claude 3.5 Sonnet,還一本正經的給出離譜的計算方法。

圖片

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到這一步還是對的,但下一步突然就不講道理了

如上所示,9.11比9.90大0.01。
你想讓我進一步詳細解釋小數的比較嗎?

圖片

這你還解釋啥啊解釋,簡直要懷疑是全世界AI聯合起來欺騙人類了。

艾倫AI研究所成員林禹臣換了個數字測試,GPT-4o依舊翻車,他表示:

一方面AI越來越擅長做數學奧賽題,但另一方面常識依舊很難

圖片

也有網友發現了華點,如果是說軟件版本號,那么9.11版本確實比9.9版本更大(更新)。

而AI都是軟件工程師開發的,所以……

圖片

那么,究竟是怎么回事?

先進大模型集體翻車

一覺醒來,一眾響當當的大模型開始認為“9.11>9.9”了?

發現這個問題的是Riley Goodside,有史以來第一個全職提示詞工程師

簡單介紹下,他目前是硅谷獨角獸Scale AI的高級提示工程師,也是大模型提示應用方面的專家。

圖片

最近他在使用GPT-4o時偶然發現,當提問:

9.11 and 9.9——which is bigger?

GPT-4o竟毫不猶豫回答前者更大。

面對這一常識性“錯誤”,他不死心地又去問了其他大模型,結果幾乎全軍覆沒。

好家伙,身為一名提示工程師,他敏銳意識到可能是“打開方式有誤”。

于是他又換了個問法,將提問限定在“實數”,結果還是翻車了。

圖片

不過,有網友試著給提問換了個順序,沒想到這下AI竟反應過來了。

圖片

看到AI對詞序如此“敏感”,該網友進一步推測:

先問哪個更大,AI會沿著明確路徑開始比較數字。
但如果只是隨便說說數字,沒有明確目的,AI可能會開始“胡思亂想”。

圖片

看到這里,其他網友也紛紛拿相同提示試了一把,結果翻車的不在少數。

圖片

面對這一個詭異的問題,國產大模型表現如何呢?

我們簡單測試一番,問題也換成中文提問,結果翻車率也比較高,選取幾個有代表性的展示:

Kimi也是不加解釋就直接給出錯誤結論。

圖片

智譜清言APP上的ChatGLM,自動觸發了聯網查詢,然后描述了自己的比較方法,可惜卻執行錯了。

圖片

不過也有表現不錯的,騰訊元寶先復述了一遍選項,然后直接做對。

圖片

字節豆包是少數能把比較方法描述清楚,而且用對的。甚至還聯系實際舉例來驗證。

圖片

比較可惜的是文心一言,面對這個問題,也是觸發了聯網查詢。

圖片

本來都已經做對了,但突然話鋒一轉又導向了錯誤結論。

圖片

不過從文心一言的思路解釋上,也可以看出背后問題所在。

由于大模型以token的方式來理解文字,當9.11被拆成“9”、“小數點”和“11”三部分時,11確實比9大。

由于OpenAI使用的Tokenizer開源,可以用來觀察大模型是如何理解這個問題。

圖片

上圖可以看出,9和小數點分別被分配為“24”和“13”,小數點后的9同樣也是“24”,而11被分配到“994”

所以使用這種tokenizer方法的大模型會認為9.11更大,其實是認為11大于9

也有網友指出,像是書籍目錄里第9.11節也比第9.9節大,所以最終可能還是訓練數據里見這種見得多了,而手把手教基礎算數的數據很少。

也就是問題本身對人類來說,一看就知道問的是算數問題,但對AI來說是一個模糊的問題,并不清楚這兩個數字代表什么。

只要向AI解釋明白這是一個雙精度浮點數,就可以做對了。

圖片

在有額外條件的情況下,tokenizer這一步依然會給11分配更大的token。但是在后續自注意力機制的作用下,AI就會明白要把9.11連起來處理了。

圖片

后來Goodside也補充,并不是說大模型無論如何都認定了這個錯誤結論。而是當以特定方式提問時,許多領先模型都會告訴你9.11>9.9,這很奇怪。

圖片

經過反復嘗試后他發現,想讓AI上這個當,需要把選項放在提問前面,如果調換順序就不會出錯。

但是只要選項在問題前面,改變提問的方式,如加標點、換詞匯都不會有影響。

圖片

雖然問題很簡單,錯誤很基礎。

但了解出錯原理之后,許多人都把這個問題當成了檢驗提示詞技巧的試金石,也就是:用什么提問方法能引導大模型的注意力機制正確理解問題呢?

首先,大名鼎鼎的Zero-shot CoT思維鏈,也就是“一步一步地想”,是可以做對的。

圖片

不過角色扮演提示,在這里作用就有限了。

圖片

剛好最近也有微軟和OpenAI都參與的一項研究,分析了1500多份論文后發現,隨著大模型技術的進步,角色扮演提示不像一開始那樣有用了……

圖片

具體來說,同一個問題提示“你是一個天才……”比“你是一個傻瓜……”的正確率還低。

也是讓人哭笑不得了。

圖片

One More Thing

與此同時,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

圖片

更新內容為:另一位線人報告,OpenAI已經在內部測試了新模型,在MATH數據集上得分超過90%。路透社無法確定這是否與“草莓”是同一個項目。

圖片

MATH數據集包含競賽級別的數學題,目前不用多次采樣等額外方法,最高分是谷歌Gemini 1.5 Pro數學強化版的80.6%。

圖片

但是OpenAI新模型在沒有額外提示情況下,能不能自主解決“9.11和9.9哪個大?”。

突然沒信心了,還是等能試玩了再看結果吧……

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-07 10:05:00

LLM大模型技術

2023-06-06 17:48:35

罷工人工智能AI

2024-08-02 14:58:00

2024-08-07 12:28:23

2025-02-20 13:44:01

2024-07-17 12:13:11

2025-02-14 10:47:40

2025-04-03 09:42:05

2024-08-13 13:11:02

2023-11-03 07:47:12

機器資源大模型:

2025-05-19 17:18:57

AI模型o3

2024-10-24 13:40:00

AI大模型

2025-02-18 10:25:10

2021-01-22 15:27:22

5nm芯片芯片制程廠商

2025-05-21 09:02:20

2023-12-04 12:02:05

2024-05-31 14:23:15

2024-06-14 14:28:14

2024-07-16 13:24:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩电影一区二区三区 | 欧美二区在线 | 日本不卡一区二区 | 国产精品免费视频一区 | 精品国产一区二区三区四区在线 | 亚洲国产欧美在线 | 国产精品毛片一区二区三区 | 国精品一区 | 一区二区三区四区av | 日韩av在线一区二区 | 亚洲精品久久久一区二区三区 | 久久大陆 | 色婷婷亚洲一区二区三区 | 天天看天天操 | 在线观看中文字幕视频 | 中文字幕不卡在线观看 | 国产精品久久久久久久久久久久冷 | 国产精品视频久久久 | 99re视频精品| 国产精品视频网 | 在线观看国产91 | 国产亚洲欧美在线视频 | 黄网免费看| 一区在线视频 | 亚洲综合小视频 | 亚洲精品国产区 | 亚洲免费观看视频 | 中文字幕人成乱码在线观看 | 黄网免费 | 国产精品中文字幕在线 | 狠狠的操 | 欧美精品在线一区二区三区 | 国产欧美一区二区精品久导航 | 国产99在线 | 欧美 | 久www| 在线免费av电影 | 91精品国产99久久 | 日韩av高清在线 | 日韩精品成人网 | 97精品久久 | 99久久久久久99国产精品免 |