成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型智障檢測+1：Strawberry有幾個r紛紛數(shù)不清，最新最強Llama3.1也傻了

作者：量子位 2024-07-25 12:11:22

人工智能新聞

教給大模型判斷自己知道不知道的方法，Meta在LLama 3.1論文中也有所涉及。

繼分不清9.11和9.9哪個大以后，大模型又“集體失智”了！

數(shù)不對單詞“Strawberry”中有幾個“r”，再次引起一片討論。

GPT-4o不僅錯了還很自信。

剛出爐的Llama-3.1 405B，倒是能在驗證中發(fā)現(xiàn)問題并改正。

比較離譜的是Claude 3.5 Sonnet，還越改越錯了。

說起來這并不是最新發(fā)現(xiàn)的問題，只是最近新模型接連發(fā)布，非常熱鬧。

一個個號稱自己數(shù)學(xué)漲多少分，大家就再次拿出這個問題來試驗，結(jié)果很是失望。

在眾多相關(guān)討論的帖子中，還翻出一條馬斯克對此現(xiàn)象的評論：

好吧，也許AGI比我想象的還要更遠。

路遇失智AI，拼盡全力終于教會

有人發(fā)現(xiàn)，即使使用Few-Shot CoT，也就是“一步一步地想”大法附加一個人類操作示例，ChatGPT依然學(xué)不會：

倒是把r出現(xiàn)的位置都標成1，其他標成0，問題的難度下降了，但是數(shù)“1”依舊不擅長。

為了教會大模型數(shù)r，全球網(wǎng)友腦洞大開，開發(fā)出各種奇奇怪怪的提示詞技巧。

比如讓ChatGPT使用漫畫《死亡筆記中》高智商角色“L”可能使用的方法。

ChatGPT想出的方法倒是也很樸素，就是分別把每個字母寫出來再一個一個數(shù)并記錄位置，總之終于答對了。

有Claude玩家寫了整整3682個token的提示詞，方法來自DeepMind的Self-Discover論文，可以說是連夜把論文給復(fù)現(xiàn)了。

整個方法分為兩大階段：先針對特定任務(wù)讓AI自我發(fā)現(xiàn)推理步驟，第二階段再具體執(zhí)行。

發(fā)現(xiàn)推理步驟的方法簡單概括就是，不光要會抽象的思維方法，也要具體問題具體分析。

這套方法下，Claude給出的答案也非常復(fù)雜。

作者補充，花這么大力氣解決“數(shù)r問題”其實并不真正實用，只是在嘗試復(fù)現(xiàn)論文方法時偶然測試到了，希望能找出一個能用來回答所有問題的通用提示詞。

不過很可惜，這位網(wǎng)友目前還沒公布完整的提示詞。

還有人想到更深一層，如果要計算文檔中straberry出現(xiàn)多少次怎么辦？

他的方法是讓AI想象有一個從0開始的內(nèi)存計數(shù)器，每次遇到這個單詞就往上加。

有人評論這種方法就像在用英語編程。

也有AI可以一次做對

那么究竟有沒有大模型，可以不靠額外提示詞直接答對呢？

其實不久之前有網(wǎng)友報告，ChatGPT是有小概率能直接答對的，只不過不常見。

谷歌Gemini 大概有三分之二的概率能答對，打開“草稿”就能發(fā)現(xiàn)，默認每個問題回答三次，兩次對一次錯。

至于國內(nèi)選手，在提問方式統(tǒng)一、每個模型只給一次嘗試機會的測試下，上次能正確判斷數(shù)字大小的，這次同樣穩(wěn)定發(fā)揮。

字節(jié)豆包給出了正確回答，還猜測用戶問這個問題是要學(xué)習(xí)單詞拼寫嗎？

智譜清言的ChatGLM，自動觸發(fā)了代碼模式，直接給出正確答案“3”。

騰訊元寶像解數(shù)學(xué)題一樣列方程給出了正確答案（雖然貌似沒有必要）。

文心一言4.0收費版則更加詳細，也是先正確理解了意圖，然后掰指頭挨個找出了全部的“r”。

不過有意思的是，在同一種方法下，文心一言APP中的免費版文心3.5掰指頭也能數(shù)錯。

訊飛星火也通過找出“r”所在位置給出了正確回答。

還是token的鍋

雖然“數(shù)r”和“9.11與9.9哪個大”，看似一個是數(shù)字問題一個是字母問題，但對于大模型來說，都是token問題。

單個字符對大模型來說意義有限，使用GPT系列的Llama系列的tokenizer就會發(fā)現(xiàn)，20個字符的問題，在不同AI眼中是10-13個token。

其中相同之處在于，strawberry被拆成了st-，raw，-berry三個部分來理解。

換一個思路用特殊字符??????????來提問，每一個字符對應(yīng)的token也就會分開了。

面對這種問題，其實最簡單的方法就是像智譜清言一樣，調(diào)用代碼來解決了。

可以看到，ChatGPT直接用Python語言字符串的count函數(shù)，就能簡單搞定。

剛剛創(chuàng)業(yè)開了所學(xué)校的大神卡帕西認為，關(guān)鍵在于需要讓AI知道自己能力的邊界，才能主動去調(diào)用工具。

至于教給大模型判斷自己知道不知道的方法，Meta在LLama 3.1論文中也有所涉及。

最后正如網(wǎng)友所說，希望OpenAI等大模型公司，都能在下個版本中解決這個問題。

GPT Tokenizer試玩https://gpt-tokenizer.dev
Llama Tokenizer試玩https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板： 97精品超碰一区二区三区 | 国产精品福利视频 | av激情在线 | 亚洲综合色自拍一区 | 日韩福利在线观看 | 日日操网站 | 超碰在线97国产 | 91精品国产一区二区三区蜜臀 | 国产精品福利一区二区三区 | 成人网av| 欧美a在线| 伊人精品视频 | 九九久久久| www日韩高清| 一级午夜aaa免费看三区 | 亚洲午夜精品一区二区三区他趣 | 91亚洲精选| 欧美美乳 | 蜜桃毛片 | 国产一区中文 | 亚洲aⅴ | 久久不卡区 | 久久免费精品视频 | 国产欧美一区二区精品忘忧草 | 一级毛片,一级毛片 | 99精品久久| 黄色在线免费观看 | 国产精品永久久久久 | 国产精品久久久久久久久久久久久 | 亚洲国产精品区 | 久久亚洲欧美日韩精品专区 | 亚洲情视频 | 蜜桃av一区二区三区 | 国产在线拍偷自揄拍视频 | 国产日韩一区二区 | 国产探花在线观看视频 | 久久久91精品国产一区二区三区 | 日批免费观看 | 日韩一区二区三区视频 | 成人免费在线视频 | 成人精品鲁一区一区二区 |

<font id="61611"></font>