成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

院士領銜推出大模型的第3種記憶:比參數存儲和RAG都便宜,2.4B模型越級打13B

人工智能
在實驗中,僅有2.4B參數的Memory3模型不僅打敗了許多7B-13B的模型,在專業領域任務如醫學上的表現也超過了傳統的RAG方法,同時推理速度更快,“幻覺”問題也更少。

給大模型加上第三種記憶格式,把寶貴的參數從死記硬背知識中解放出來!

中科院院士鄂維南領銜,上海算法創新研究院等團隊推出Memory3,比在參數中存儲知識以及RAG成本都更低,同時保持比RAG更高的解碼速度。

圖片圖片

在實驗中,僅有2.4B參數的Memory3模型不僅打敗了許多7B-13B的模型,在專業領域任務如醫學上的表現也超過了傳統的RAG方法,同時推理速度更快,“幻覺”問題也更少。

圖片圖片

目前相關論文已上傳到arXiv,并引起學術界關注。

圖片圖片

知識按使用頻率分類

這一方法受人腦記憶原理啟發,獨立于存儲在模型參數中的隱性知識和推理時的短期工作工作記憶,給大模型添加了顯式記憶。

具體來說,人類的記憶大致可以分為三部分:

  • 顯式記憶:可以主動回憶的長期記憶,比如讀過的文章。獲取顯式記憶很容易,但提取時需要一定的回憶過程。
  • 隱式記憶:無意識使用的長期記憶,比如騎自行車的技能。獲取隱式記憶需要大量重復練習,但使用時毫不費力。
  • 外部信息:存在大腦之外的信息,如考試時的備考資料。獲取和使用都很輕松,但遇到新問題時作用有限。

可以看出,三種記憶形式在獲取和使用的效率上形成了鮮明的互補。人腦會根據知識的使用頻率,巧妙地在它們之間分配存儲位置,從而最小化整體開銷。

反觀大模型,目前主要依賴在參數中以隱式記憶的形式來存儲知識,這導致兩個問題:

  • 知識分配效率低:無論一個知識使用得多頻繁,都一視同仁塞進參數里,導致大量冷知識占用了寶貴的參數空間。
  • 知識提取效率低:每次使用知識,都得動用大量參數參與計算。

目前在訓練階段,團隊將大模型比作顯式記憶能力受損的患者,靠學習如何系鞋帶一樣的大量重復練習才能背下一點知識,消耗大量的數據和能量。

在推理階段,大模型又好像一個人每寫一個單詞時都要回憶起畢生所學的一切,就很不合理。

基于以上思路,團隊按照知識的預期使用頻率(橫軸)計算了讀寫成本(縱軸),陰影區域表示給定記憶格式的最小成本區域。

結果發現,把常用知識塞進模型參數里成本最低,但容量有限;不常用的知識直接檢索效率最高,但每次讀取都要重新編碼,成本高;而顯式記憶則是個平衡點,對于使用次數中等的大部分知識最劃算。

圖片圖片

記憶電路理論

團隊進一步在論文中提記憶電路理論,在大模型語境下重新定義知識和記憶,以確定哪些知識更適合存儲為顯式記憶,以及什么樣的模型架構適合讀寫顯式記憶。

圖片圖片

通過分析一些已知的大模型內部機制,如事實問答、搜索復制粘貼等,團隊認為大模型中的每條知識都可以表示為一個輸入-輸出關系,加上實現這個關系的內部電路(circuit)。

電路指計算圖中的一個子圖,由一些注意力頭和MLP神經元組成,這些電路的輸入輸出具有一定的語義關聯。大模型的知識可進一步分為兩類:

  • 具體知識(specific knowledge):電路的輸入和輸出都具有明確的語義,如常識、常見短語等。
  • 抽象知識(abstract knowledge):電路的輸出語義可變,如搜索、復制、粘貼,需要通過輸入推理出輸出。

接下來,作者引入可分離知識(separable knowledge)的概念:如果一個知識可以僅通過文本實現而不必內置到模型參數里,那它就是可分離的。

可模仿知識(imitable knowledge)是可分離知識的一個特例,可以直接用描述這條知識自身的文本去“教會”另一個不具備這條知識的大模型,無需通過參數來編碼。

一個核心結論是,具體知識都是可模仿的,因此也是可分離的,都可轉化為顯式記憶。論文從理論上給出了(非形式化)證明。

圖片圖片

團隊進一步把具體知識按使用次數分成“無關緊要”、專業知識和常見短語三個等級,不同等級按照讀寫成本分別適合三種不同的記憶格式。

圖片圖片

擁有顯式記憶的大模型Memory3

那么如何實現顯式記憶呢?

以注意力層的key-value向量作為顯式記憶的載體,在推理之前,Memory3模型將所有引用文本轉換為顯式記憶,并將它們保存在硬盤或非易失性內存設備上。

在推理時,模型會查詢與當前上下文最相關的一些顯式記憶,將它們并入注意力機制中,與上下文的key-value向量一起計算注意力分數,生成下一個token。

圖片圖片

然而,海量文本轉化成的顯式記憶不僅需要更多的磁盤空間,而且在推理過程中還會占用GPU內存,從而損害LLM生成的吞吐量。

為此,Memory3采取了多維度壓縮優化策略:

  • layer維度:只有前半部分的注意力層(記憶層)產生和存取顯式記憶,后半部分仍然是普通的注意力層。
  • head維度:每層只有少部分head(如1/5)負責處理顯式記憶的key-value,其他head保持原樣。
  • token維度:對于每個head,只選取參考文本中最相關的少量token(如8個),提取其key-value作為顯式記憶。

最后再進一步用向量量化(vector quantization)壓縮每個key和value向量到更短的表示。

多級壓縮的組合,使得顯式記憶的規模從45.9TB壓縮到4.02TB,壓縮到一個GPU集群通常配備的存儲容量之內。

另外,團隊在顯式記憶的讀寫上還有一些值得注意的細節設計:

  • 推理時為了避免不同文本片段重復檢索顯式記憶,Memory3每隔64個token做一次檢索,中間共享檢索結果。
  • 頻繁調用顯式記憶會產生IO開銷。為此,Memory3在內存中維護了一個固定大小的緩存,存儲最近訪問過的顯式記憶。
  • 對于參考文本,模型使用不同的輸入符號(“<s>Reference:”)將其與普通文本區分開,避免干擾文本理解。
  • 對于顯式記憶中的不同文本片段,模型為其分配了同一區間的位置編碼,保留局部上下文。這種”平行”位置編碼避免了長文本中間部分被忽略的問題。

最終訓練出來的Memory3模型,在HuggingFace排行榜上的評測結果如下,顯式記憶將平均分數提高了2.51%。

相比之下Llama2-7B和13B之間的分數差異為4.91%,而13B模型的非嵌入參數數量接近7B模型的兩倍。

因此,可以說顯式記憶可以將“有效模型大小”提高了2.51/4.91≈51.1%。如果用Qwen-1.8B和4B來做參考,計算結果相似,“有效模型大小”提高49.4%。

圖片圖片

在幻覺評估上,Memory3避免了將文本壓縮到模型參數中可能會導致的信息丟失,表現的比大部分模型要好。

圖片圖片

論文中還詳細報告了從數據到訓練、微調和對齊過程的具體設置,感興趣的可以查看原文。

論文地址:https://arxiv.org/abs/2407.01178

參考鏈接:[1]https://x.com/rohanpaul_ai/status/1809782336021537094

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-06-03 10:43:34

2024-07-09 18:36:12

2023-10-13 19:58:33

Mistral7B模型

2023-10-31 10:11:50

昆侖萬維大模型

2024-06-12 08:30:34

2023-10-21 12:42:06

數據模型

2023-11-18 09:37:49

2023-12-13 13:29:00

數據訓練

2024-02-22 10:09:00

開源模型

2025-05-09 08:30:00

2023-09-21 12:31:54

AI數據

2024-02-05 14:12:37

大模型RAG架構

2024-06-19 16:11:22

2023-09-12 14:45:18

2024-07-12 14:53:42

2024-09-11 12:31:59

2023-02-28 07:03:09

AIMeta大型語言

2024-06-04 14:09:00

2025-02-27 13:00:00

2024-04-01 12:43:40

模型訓練開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美一区二区三区国产精品 | 九九国产在线观看 | 一区二区三区四区在线 | 中文字幕一区二区三区四区 | 在线免费观看毛片 | 日韩精品一区二区三区在线观看 | 亚洲精品一区国语对白 | 午夜精品久久久久久久久久久久久 | a级黄色片视频 | 中文字幕在线第一页 | 给我免费的视频在线观看 | 天天躁日日躁狠狠躁白人 | 久久精品国产99国产精品 | 成人欧美一区二区三区黑人孕妇 | 国产1区 | 国产精品99久久久久久www | 亚洲一区二区三区视频 | 国产亚洲精品91 | 99国产精品久久久久 | 麻豆一区| 国产精品久久久久久久模特 | 日韩欧美理论片 | 欧美亚洲视频在线观看 | 青青伊人久久 | 国产成人精品一区二区三 | 在线91 | 亚洲欧美精品一区 | 欧美成年人视频在线观看 | 日本电影一区二区 | 91精品国产91久久久久久最新 | 国产精品久久久一区二区三区 | 日日干干 | 日韩在线观看视频一区 | 中文字幕一区在线观看视频 | 国产精品区一区二区三 | 国产精品久久久久久久午夜 | 国产精品久久久久久久7777 | 精品一区二区三区不卡 | 亚洲三区在线观看 | av高清毛片 | 国产日韩欧美在线观看 |