成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI記憶偽裝被戳穿!GPT、DeepSeek等17款主流大模型根本記不住數(shù)字

人工智能
最近,來(lái)自約翰?霍普金斯大學(xué)與中國(guó)人民大學(xué)的團(tuán)隊(duì)設(shè)計(jì)了三套實(shí)驗(yàn),專門把關(guān)鍵線索藏在上下文之外,逼模型「憑記憶」作答,從而檢驗(yàn)它們是否真的在腦海里保留了信息。

在進(jìn)入本文之前,我們先來(lái)玩?zhèn)€ 10 秒小游戲:

  • 在心里選一個(gè)「1-10」的整數(shù)。
  • 現(xiàn)在設(shè)想我問:「你想的是 5 嗎?」
  • 如果聽到是自己的數(shù)字,你會(huì)本能地答 Yes,其余統(tǒng)統(tǒng) No。

這件小事背后其實(shí)考驗(yàn)的是你大腦的工作記憶 —— 保持一個(gè)念頭、隨時(shí)對(duì)比外部問題并作出一致回應(yīng)。

圖 1: 當(dāng) ChatGPT 告訴我們他心中已經(jīng)想好一個(gè)數(shù)字,并回答該數(shù)字不是 4。我們要如何判斷 ChatGPT 是否在說謊?

同樣的小游戲,大模型會(huì)如何反應(yīng)呢?它們是否真的能做到像人類一樣,不輸出但在心中想好一個(gè)數(shù)字?我們又如何檢驗(yàn)?

最近,來(lái)自約翰?霍普金斯大學(xué)與中國(guó)人民大學(xué)的團(tuán)隊(duì)設(shè)計(jì)了三套實(shí)驗(yàn),專門把關(guān)鍵線索藏在上下文之外,逼模型「憑記憶」作答,從而檢驗(yàn)它們是否真的在腦海里保留了信息。

  • 論文標(biāo)題:LLMs Do Not Have Human-Like Working Memory
  • 論文鏈接:https://arxiv.org/abs/2505.10571
  • 作者:Jen-Tse Huang(黃任澤)、Kaiser Sun、Wenxuan Wang、Mark Dredze

一、什么是工作記憶?如何測(cè)量人類的工作記憶?傳統(tǒng)評(píng)估為什么不夠?

在人類大腦里,工作記憶(Working Memory)負(fù)責(zé)把剛獲得的信息保留幾秒到幾十秒,并在此基礎(chǔ)上進(jìn)行推理、計(jì)算、對(duì)話等復(fù)雜操作。沒有它,人會(huì)前后矛盾、無(wú)法心算,也難以進(jìn)行連貫交流。

而大模型常被比作「會(huì)說話的大腦」。如果它們?nèi)鄙龠@一能力,離真正的「通用人工智能」就還差關(guān)鍵一塊拼圖。

以往工作常常使用 N-Back Task 來(lái)評(píng)估大模型的工作記憶。受試者看到(或聽到)一串字母 / 數(shù)字,并需持續(xù)回答「當(dāng)前字母 / 數(shù)字是否與 N 步之前相同?」 難度隨 N 增大而增加,被廣泛用作神經(jīng)影像和認(rèn)知心理實(shí)驗(yàn)的標(biāo)準(zhǔn)工具。

但是直接拿來(lái)直接測(cè) LLM 并不合適。人類測(cè)試時(shí)僅能看到當(dāng)前的字母 / 數(shù)字,而 LLM 輸入窗口內(nèi)本身就包含全部歷史 token,「回看 N 步」并非真正的內(nèi)部記憶調(diào)用,而是簡(jiǎn)單的文本匹配。

圖 2: 為人類設(shè)計(jì)的評(píng)估工作記憶的常用泛式:N-Back Task。受試者看(聽)到一連串字母 / 數(shù)字序列,并持續(xù)回答「當(dāng)前字母 / 數(shù)字是否與 N 步之前相同?」

二、三大實(shí)驗(yàn)逐個(gè)拆解 LLM 的「記憶漏洞」

實(shí)驗(yàn) 1: 數(shù)字猜謎(Number Guessing Game)

任務(wù)流程:大模型先在心里想好一個(gè)數(shù)字,用戶重復(fù)提問「你想的是 X(1-10)嗎?」重復(fù) 2000 次。統(tǒng)計(jì)每個(gè)數(shù)字大模型回答「是」的頻率。

評(píng)測(cè)要點(diǎn):1-10 上回答「是」的概率和必須為 1,即 10 個(gè)數(shù)字總得有一個(gè) Yes。

圖 3: 17 個(gè)模型對(duì)每個(gè)數(shù)字回答「是」的分布情況。

團(tuán)隊(duì)統(tǒng)計(jì)了來(lái)自 5 個(gè)模型家族的 17 個(gè)模型,發(fā)現(xiàn)大部分模型在所有情況下居然都會(huì)回答「否」(即在圖中全為 0)!團(tuán)隊(duì)又進(jìn)一步統(tǒng)計(jì)了每個(gè)模型的概率加總:

圖 4: 17 個(gè)模型對(duì)每個(gè)數(shù)字回答「是」的概率加總。

結(jié)果發(fā)現(xiàn)僅有 GPT-4o-2024-08-06 以及 LLaMA-3.1-8B 版本做到了能在概率加總上接近 1。而其他模型,不管來(lái)自哪個(gè)模型家族,不管是不是推理模型,都全軍覆沒,模型根本沒有在「腦內(nèi)」存數(shù)字!

圖 5: GPT-4o-2024-08-06 模型對(duì)其他數(shù)字范圍回答「是」的分布情況。

彩蛋:在所有測(cè)試?yán)铮琇LM 都對(duì)數(shù)字 7(甚至 17,37)情有獨(dú)鐘 —— 看來(lái)「人類幸運(yùn)數(shù)字」迷信也傳染給了模型!

實(shí)驗(yàn) 2: 是?非問答(Yes?No Game)

任務(wù)流程:在心里選好一個(gè)具體物體(如「鉛筆」),然后僅用 Yes/No 回答一連串比較:是否比 X 重?比 Y 長(zhǎng)?比 Z 大?

人類會(huì)如何做?每次遇到新的問題的時(shí)候,把內(nèi)心想的物體與問題里的物體做比較,輕輕松松作答。若沒有工作記憶呢?如果做不到在心中想好具體的物體,在每次遇到新問題時(shí),只能回去檢查之前的所有問題與答案,推理要如何回答新問題才能避免跟之前自相矛盾。

團(tuán)隊(duì)持續(xù)問大模型 250 次問題,并統(tǒng)計(jì)了最終大模型止步于第幾個(gè)問題的直方圖:

圖 6: GPT-4o-2024-08-06 以及 GPT-4o-Mini-2024-07-18 模型在自相矛盾前回答問題數(shù)量的頻率直方圖。

結(jié)果發(fā)現(xiàn)問到 20?40 題時(shí),GPT?4 級(jí)別模型開始露餡:「比汽車大」同時(shí)又「比足球小」之類的尺寸悖論橫飛。長(zhǎng)上下文(Long-Context)推理能力更強(qiáng)的 GPT-4o 在通過的次數(shù)以及平均回答問題數(shù)上均超過更弱的 GPT-4o-Mini,但總計(jì) 200 次測(cè)試中也僅僅有 27 次成功通過。這說明大模型僅通過其長(zhǎng)上下文能力在完成任務(wù),而非一個(gè)一致的工作記憶。

實(shí)驗(yàn) 3: 數(shù)學(xué)魔術(shù)(Math Magic)

任務(wù)流程:心中記住 4 個(gè)隨機(jī)數(shù)(如 3?5?2?9),然后依次執(zhí)行 10 步心算:復(fù)制、置底、插入、刪除、…… 最終理論上剩下 2 個(gè)相同的數(shù)。

團(tuán)隊(duì)沿用實(shí)驗(yàn) 1 中的 17 個(gè)模型,統(tǒng)計(jì)它們最后 2 個(gè)數(shù)字相同的概率:

圖 7: 17 個(gè)模型在數(shù)學(xué)魔術(shù)中的準(zhǔn)確率,下圖為使用 CoT 的模型以及推理模型(LRM)。

結(jié)果發(fā)現(xiàn)主流模型正確率普遍非常低。研究者嘗試加 CoT 也沒用。 DeepSeek?R1 以 39% 勉強(qiáng)排名第一,但仍有巨大提升空間。值得注意的是模型表現(xiàn)與實(shí)驗(yàn) 1 一致 ——LLaMA-3.1-8B 效果超群。

三、小結(jié)

論文共測(cè)試 GPT、o1/3/4、LLaMA、Qwen、DeepSeek 等 17 個(gè)熱門模型,無(wú)一通過三項(xiàng)考驗(yàn):

  • LLaMA?3.1?8B 在數(shù)字猜謎最接近「人類」—— 概率和 0.98,在數(shù)學(xué)魔術(shù)上不用 CoT 也能超越 o1。
  • DeepSeek?R1 在數(shù)學(xué)魔術(shù)拿到 39.3% 正確率的最高分,但仍遠(yuǎn)不到及格線。
  • 體量更大、推理鏈更長(zhǎng)≠更好工作記憶;有的升級(jí)版甚至退步。

一句話:尚無(wú)開源或閉源 LLM 通過「三關(guān)」。這意味著什么?

  • 對(duì)話更真實(shí)?未來(lái)要讓 AI 像人一樣「邊想邊聊」,就得補(bǔ)上真正的工作記憶機(jī)制,而不僅是無(wú)限上下文窗口。
  • 長(zhǎng)鏈推理?現(xiàn)有 CoT 更多是把「草稿」寫進(jìn)提示里,并非模型在腦中運(yùn)算。
  • 新研究方向!或借鑒認(rèn)知科學(xué),引入可讀寫的「內(nèi)存格」;或通過 RL、神經(jīng)模塊化等方法,讓模型學(xué)會(huì)在體內(nèi)保留并操縱隱變量。
責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-27 10:16:56

2023-08-10 08:46:52

2025-03-31 08:00:00

AI模型測(cè)評(píng)

2025-03-14 11:57:43

2025-06-23 09:12:00

2025-06-03 08:32:00

2018-09-27 18:35:45

邊緣計(jì)算

2018-08-20 09:35:00

邊緣計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)

2023-06-05 12:32:48

模型論文

2023-11-18 09:40:58

數(shù)據(jù)模型

2024-03-28 14:45:56

2024-07-12 14:53:42

2025-04-27 00:32:00

AIAgent智能體

2023-08-30 13:09:43

AI數(shù)據(jù)

2025-05-08 08:10:25

大模型DeepSeekAPI

2017-11-02 13:15:18

Linux

2024-07-11 11:55:26

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕精品一区二区三区精品 | 国产精品乱码一区二区三区 | 久久久久国产一区二区三区 | 国产精品视频999 | 一区二区高清 | 久久久999成人 | 伊人二区 | 欧美在线视频免费 | 美女爽到呻吟久久久久 | 亚洲一区视频在线 | 亚洲精品亚洲人成人网 | www.久久精品 | 亚洲精品一区二区三区蜜桃久 | 久久九| 亚洲精品国产成人 | 日韩中文字幕一区二区 | 久久青 | 亚洲综合日韩精品欧美综合区 | 超碰97人人人人人蜜桃 | 久久91精品国产一区二区 | 国产高清在线精品 | 日韩精品1区2区3区 成人黄页在线观看 | 欧美视频三区 | 中国一级特黄毛片大片 | aaaa一级毛片 | 羞羞视频在线观免费观看 | 激情一区二区三区 | av中文字幕在线播放 | 99re视频在线| 国产精品三级 | 狠狠色综合久久婷婷 | 精品久久久久一区二区国产 | 欧美日韩亚洲在线 | 日韩一区二区三区在线观看 | 91九色porny首页最多播放 | 一区二区三区四区在线 | 超碰免费在线观看 | 自拍偷拍欧美 | 日韩a | 91精品国产91久久久久游泳池 | 精品久久久久久久久久久久 |