具備記憶的智能體操作系統,MemoryOS重構AI Agent對話的持久性與個性化 精華
在人工智能邁入大語言模型(LLMs)主導的新階段后,我們獲得了許多驚艷的技術能力,豐富的語言理解、流暢的文本生成,以及令人信服的對話模擬。但當我們期待與AI維持一場“持久而個性化”的深度交流時,現實卻給我們潑了一盆冷水——它們很“健忘”。
對“記憶力差”的大模型說不
盡管GPT類模型在推理和語言風格把控上令人欽佩,但它們的記憶方式仍停留在“即時記憶”階段。由于依賴固定長度的上下文窗口,它們往往只能記住“最近”的內容。一旦對話變長、話題中斷,甚至是換了會話窗口,先前的信息便如斷線的風箏悄然飄走。于是AI忘記了你最愛的咖啡口味,也忘記你正在準備一場重要的面試。
這種“斷裂記憶”的問題,不僅影響對話連貫性,更讓個性化推薦、長期交互甚至情緒共鳴變得困難。在追求“擬人化交互”的道路上,記憶瓶頸成了擋在眼前的一道墻。
向操作系統借腦,MemoryOS 的設計靈感
正當技術社區為此煩惱時,來自北京郵電大學與騰訊AI Lab 的研究團隊帶來了一種頗具“工程思維”的解決方案:何不借鑒傳統操作系統的內存管理機制,為AI打造一個“記憶管理操作系統”?
于是,MemoryOS 應運而生。這并不是為語言模型簡單加上一塊“額外記憶”,而是一整套如同電腦操作系統般嚴謹的框架:通過分層的存儲結構(短期/中期/長期)、熱度驅動的動態更新機制、語義感知的多級檢索算法,MemoryOS 讓AI學會“選擇性記住”,并且“智能地忘記”。
它不僅延續了用戶畫像、偏好和歷史交互,還能自主決定哪些信息應該進檔、哪些內容值得遺忘。這讓AI在面對跨天、跨話題、多輪的復雜對話時,依然能夠保持語境連貫、風格統一乃至價值取向的一致性。
從結構到實效的全面創新
MemoryOS 不是紙上談兵。它的架構細致劃分為四大模塊:記憶存儲(Storage)、記憶更新(Updating)、記憶檢索(Retrieval)、響應生成(Generation)。每一層都經過精心設計,確保了系統的可拓展性與工程落地性。
相較于已有如 TiM、A-Mem、MemGPT 等記憶增強方法,MemoryOS 的突出優勢在于它的“系統整合性”與“記憶演化機制”:它不是把記憶模塊當外掛工具,而是將記憶深度整合進整個交互流程,真正實現“AI代理記憶架構的內生化”。
實驗驗證也不負眾望,在面向超長對話的 LoCoMo 基準測試中,MemoryOS 的表現領先于其他主流方法,在 F1 與 BLEU-1 指標上分別實現了 49.11% 與 46.18% 的性能提升;在用戶記憶恢復、上下文連貫性和交互效率方面也表現出顯著優勢。
項目團隊與開源使命
本項目由北京郵電大學與騰訊AI Lab 共同牽頭,主力研究者包括Jiazheng Kang, Mingming Ji, Zhe Zhao, Ting Bai。團隊匯集了高校在認知建模方面的理論積淀與工業界在大模型系統化實現方面的工程經驗,可謂“智技合一”。
更重要的是,該項目已完全開源,代碼托管于 GitHub:??https://github.com/BAI-LAB/MemoryOS??。這為后續學術探索、行業適配與跨領域創新提供了極大的開放性和可遷移性。
論文鏈接:???https://arxiv.org/abs/2506.06326???
項目地址:??https://github.com/BAI-LAB/MemoryOS??
1.MemoryOS:AI記憶的中樞神經系統
MemoryOS 的核心思想像極了人類的大腦皮層分區,它將「記憶」這件事系統化拆解為四個環節:存儲、更新、檢索和生成,每一步都協調運作,形成一個可生長、可調度的“長期語義記憶體系”。
圖1:MemoryOS的總體架構,包括內存存儲、更新、檢索和響應。
模塊一:記憶存儲 —— 分層是關鍵
MemoryOS 的存儲機制采用了三層結構,像一座記憶梯田,層層進階:
短期記憶(STM):記錄最近會話中的每一次對話,單位是「對話頁」,每一頁都含有用戶提問、AI答復、時間戳,以及自動生成的“上下文摘要”,保證對話語境的延續性。
中期記憶(MTM):仿照操作系統的段頁式結構,將多頁對話按“語義話題”打包成段(segment)。系統通過計算對話頁與段落之間的語義相似度 Fscore(結合詞向量余弦與關鍵詞 Jaccard 相似度)來聚合相關對話,確保段內主題清晰、內容連貫。
長期個性記憶(LPM):這是AI自我意識的一部分,包含兩大分支:
1)用戶畫像:不僅記錄靜態信息(如姓名、出生年),還動態維護知識庫(User KB)和興趣畫像(User Traits),高達90維度。
2)AI畫像:包含系統設定角色(如“助理”或“顧問”)和互動演化的行為偏好(Agent Traits),形成一致的人設和行為風格。
這一層級結構不僅模仿了人類記憶的分層機制,也引入操作系統式“分段管理”理念,使AI能區分“即刻對話”、“常談話題”與“長期偏好”。
模塊二:記憶更新 —— 記憶不是堆疊,而是過濾
AI的大腦不可能無限擴張,關鍵是如何聰明地“更新”它。
STM → MTM:采用先進先出(FIFO)隊列邏輯。當STM滿員,最早的對話頁自動轉移至MTM,這保證了短期記憶永遠聚焦“當前話題”。
MTM → LPM:更為復雜。系統計算每個段的熱度分數(Heat),由訪問頻次(Nvisit)、內容豐富度(Linteraction)、最近使用程度(Rrecency)共同決定。公式如下:
當段落熱度高于設定閾值,說明它對用戶具有持續價值,此時系統將其提取并更新進用戶偏好(Traits)與知識庫(KB)中。反之,低熱度段則被優雅地“遺忘”或回收。
整個更新機制體現出 MemoryOS 對“動態演化”與“去冗余”的精準把控,不再是簡單信息積累,而是一場認知有機體的成長。
模塊三:記憶檢索 —— 懂你所問,召你所需
要生成像樣的對答,光有記憶還不夠,如何高效調用才是核心。
STM 提供最近對話背景,直接使用;
MTM 則要經過“雙階段檢索”:先從所有段中選出最相關的若干段(基于Fscore),再在段內挑選最相關的對話頁。
LPM 檢索用戶畫像中的語義匹配特征,尤其是動態特征和偏好,找到與當前問題最貼近的歷史線索。
這種“按需分級調度”的機制,確保無論用戶詢問的是剛剛說過的事,還是上個月吃的披薩,系統都能在邏輯上和風格上無縫對接。
模塊四:響應生成 —— 將“記憶+上下文”轉化為對答之術
最終,這一切的記憶調用都匯聚于生成模塊。系統將檢索到的最近上下文(STM)、話題段落摘要(MTM)、用戶和AI畫像(LPM),一并融合進 LLM 的提示輸入中,構造一個語義豐富、風格貼合的Prompt,引導模型生成輸出。這正是 MemoryOS 的“交互魔法”所在。
它不僅能說出對的內容,更能以對的方式說出,讓你感覺:這個AI,好像真的了解我。
2.實驗評估與分析:讓“記憶架構”直面真實世界
跨越短期交互,驗證長期記憶的含金量
為了檢驗 MemoryOS 的真正實力,研究團隊采用了兩套極具代表性的對話數據集進行實驗。
GVD(General Virtual Dialogue):模擬15位虛擬用戶在10天內與AI進行多輪對話的過程,每天涵蓋多個主題。這更像我們日常的“連續使用情境”,檢驗模型對日常信息的長期保留與更新能力。
LoCoMo Benchmark:被譽為“長對話記憶煉金爐”。每組對話平均長達300輪、包含近9,000個Token,專為檢測LLMs在超長交互下的記憶保持力而設計。問題被細分為四類:單跳、 多跳、 時間性推理和開放式提問,極具挑戰性。
在評估方式上,團隊設置了多維指標。
GVD 使用記憶檢索準確率(Acc)、回答正確率(Corr)、上下文連貫性(Cohe)三項打分;
LoCoMo 則采用標準的 F1和 BLEU-1指標,衡量語義精確度與語言生成質量。
對比對象囊括了當前主流的增強記憶框架,包括存思維不存話的TiM;引入遺忘曲線的 MemoryBank;模仿操作系統分頁調度的MemGPT;構建圖譜式知識網絡的 A-Mem。
可以說,這場測試既是一次全面競技,也是一場記憶體系的“技術內戰”。
性能對比:MemoryOS全線領先,“記憶力”堪稱新標桿
實驗結果毫不含糊地展現了 MemoryOS 的領先優勢。
在 GVD 數據集上,MemoryOS 不僅在三個維度中全面奪冠,在 GPT-4o-mini 模型上達到了93.3%的檢索準確率與91.2%的回答正確率,較最強對手 A-Mem 提高了 3.2% 和 5.4%。
更驚艷的是在 LoCoMo 這類“馬拉松式對話”環境下,MemoryOS 在 GPT-4o-mini 上將 F1 指標提升了 49.11%,BLEU-1 增幅則達到 46.18%,遙遙領先其他方法。在最具挑戰的時間性問題與開放問題上,其表現甚至翻倍。
更換模型至 Qwen2.5-7B 后,MemoryOS 依舊展現出極強的普適性和穩定性,平均排名依舊領先。
這一成績背后,是其三層記憶結構和動態熱度調度機制所構建的系統性優勢,它不僅記得住,更記得準、記得巧。
圖2:GVD和LoCoMo基準數據集的消融研究。
消融實驗,是誰撐起了這座“記憶大廈”?
研究團隊非常“科學家范兒”地進行了“拆房子”測試——依次移除 MemoryOS 的關鍵模塊,看系統性能如何衰減。
結論非常明確了,移除整個記憶系統,性能幾乎“塌方”;中期記憶模塊(MTM)影響最大,它相當于記憶系統的“聚焦器”,負責話題聚合與熱度篩選;長期個性模塊(LPM)也十分關鍵,對用戶偏好追蹤和一致性反饋至關重要;相對而言,對話鏈模塊(Chain)的影響較弱,但仍對語境承接起到潤滑作用。
通過這種消融方式,MemoryOS 用數據驗證了自己的模塊分工是“各司其職又協同高效”的設計。
超參數分析,記憶提取的“度”在哪里?
在 MemoryOS 中,檢索多少內容是“剛剛好”的?
研發團隊通過調整從 MTM 中召回的對話頁數(top-k)進行測試。結果顯示當 k 增加到 10 以內時,模型表現穩步上升;超過一定閾值后,召回的信息開始“泛濫”,語義噪音反而拉低了性能。
因此,系統最終設定 k=10,以實現性能與效率的最佳平衡。這也提醒我們——有效記憶,不等于記得越多越好,而是要精準適量。
圖3:超參數k(MTM中檢索的頁面)對LoCoMo基準的影響。
案例研究:從“我想吃漢堡”讀出“你還想減肥”
如果說前面是數據的勝利,那最后這組對比案例,是情感的勝利。
在一個真實對話案例中,用戶幾周前說過:“我去了濕地公園,看到很多松鼠,還跑了兩圈,為了減肥”。幾周后,他突然冒出一句:“我想吃漢堡”。
默認 LLM 的回答是“你要不要試試雞腿堡?”但搭載 MemoryOS 的模型先是給出推薦,然后補了一句意味深長的提醒:“別忘了你還想減肥哦”。
這種“人味兒”的關照,并不是技術炫技,而是MemoryOS在多個模塊聯動下實現的語境識別、用戶畫像識別與人格一致性的真實體現。
圖4:展示引入我們的內存管理系統的積極影響的案例研究。左:默認LLM;右:使用MemoryOS。
3.MemoryOS 的技術成就:不是加點記憶,而是記憶重塑
與其說 MemoryOS 是一個“增強模塊”,不如說它是為AI構建了一種類操作系統的全新意識秩序。不同于以往局部補丁式的增強策略,它從存儲結構、更新策略、檢索邏輯再到生成方式,構建了一套閉環體系,使AI真正具備“持續記憶”“動態適應”“個性演化”的能力。
這套系統的最大亮點在于其分層存儲邏輯——短期記憶承接上下文,中期記憶聚焦話題熱度,長期記憶維護個性與價值觀。配合熱度驅動的淘汰機制和語義分段檢索,MemoryOS 完美解決了 LLM 在長對話中常見的“記不全、記不準、記不對”三大癥狀。
更關鍵的是,它讓AI變得更像“一個人”——一個能記得你喜歡的口味、正在進行的目標,甚至會在你想吃漢堡時溫柔提醒“別忘了你還想健身”的數字助理。
路雖遠,行則將至,MemoryOS 的未來生長點
當然,MemoryOS 也并非完美無缺,它仍有許多可以繼續深挖的優化空間。
比如說,多層記憶模塊之間的信息流動可以更智能化:如何判斷某段內容應被同步進多個層級?如何在MTM與LPM之間建立更細粒度的引用索引,而不是完全依賴熱度淘汰?這些都涉及記憶路徑的可解釋性與調度策略的優化。
同時,在面對多模態內容(圖像、視頻)以及異構對話源(跨平臺交互)的挑戰時,MemoryOS 的結構還可進一步拓展為“通用記憶內核”,適配多任務、多通道場景。想象一下:未來的你與AI在瀏覽器、手機App、VR眼鏡中并行對話,MemoryOS能否構建一個統一而彈性的“用戶記憶圖譜”?這無疑是下一站的藍圖。
從AI架構到未來智能生態,MemoryOS的跨界啟示
這個項目的最大貢獻,或許不僅僅在于解決了“記憶力”問題,更在于重新定義了 AI Agent 的架構范式。
以往,我們總是將Agent視作一個“行為體”——擅長對話、回答問題、輔助推理。但 MemoryOS 讓我們意識到:沒有記憶的Agent,始終只是反應器;而具備結構化記憶能力的Agent,才有可能形成思維流與長程目標,成為真正的智能體。
對于金融科技、科學研究、跨境合規與個性化服務等領域來說,這一記憶內核系統具有極大的實用價值。它不僅能提升用戶交互的穩定性和連貫性,還為“長期策略一致性”“個性化風控與問答”“多輪法條記憶”等復雜需求提供了底層能力支撐。
而在更遠的視角中,MemoryOS 向我們展示了一種“架構思維”的回歸:在狂熱探索AI算法之余,我們是否也應靜下心來重新思考AI的“系統設計”?也許未來更強大的AI,不靠更多參數,而靠更聰明的調度器、更合理的資源管理——也就是更好的“AI操作系統”。(END)
參考資料:???https://arxiv.org/pdf/2506.06326??
本文轉載自????獨角噬元獸????,作者:FlerkenS
