成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌出手整頓大模型“健忘癥”!反饋注意力機制幫你“更新”上下文,大模型無限記憶力時代將至

原創(chuàng) 精選
人工智能
通過大膽的想象,研究人員在現(xiàn)實世界與抽象概念間假設起橋梁。隨著TransformerFAM這樣的創(chuàng)新成果繼續(xù)涌現(xiàn)出來,技術的瓶頸會一次次被突破,一個更加智能、互聯(lián)的未來正向我們徐徐地展開畫卷。

編輯|伊風  

出品 | 51CTO技術棧(微信號:blog51cto)                 

谷歌終于出手了!我們將不再忍受大模型的“健忘癥”。

TransformerFAM橫空出世,放話要讓大模型擁有無限記憶力!

話不多說,先來看看TransformerFAM的“療效”:      

圖片圖片

大模型在處理長上下文任務時的性能得到了顯著提升!

上圖中,Isabelle、NarrativeQA等任務要求模型理解和處理大量上下文信息,并對特定問題給出準確的回答或摘要。在所有任務中,F(xiàn)AM配置的模型都優(yōu)于所有其他BSWA配置,并且能看到當超過某個點時,BSWA記憶段數(shù)量的增加已經(jīng)無法繼續(xù)提升其記憶能力。

看來,在卷長文本、長對話的路上,F(xiàn)AM這顆大模型的“忘不了”確實有點東西。

Google 的研究人員介紹,F(xiàn)AM這種新穎的 Transformer 架構——Feedback Attention Memory,它利用反饋循環(huán)使網(wǎng)絡能夠關注其自身的潛在表示,促進 Transformer 內(nèi)部工作記憶的出現(xiàn),并使其能夠處理無限長的序列。

簡單點說,這個策略有點像我們?nèi)斯勾竽P汀笆洝钡牟呗裕好看魏痛竽P蛯υ捛岸荚佥斎胍淮蝡rompt。只不過FAM的做法更高階一些,在模型處理新的數(shù)據(jù)塊時,它會將之前處理過的信息(即FAM)作為一個動態(tài)更新的上下文,再次整合到當前的處理過程中。   

這樣就能很好地應對“愛忘事”的問題了。更妙的是,盡管引入了反饋機制來維持長期的工作記憶,但FAM的設計旨在保持與預訓練模型的兼容性,不需要額外的權重。所以理論上說,大模型的強大記憶力,沒有使其變得遲鈍或者消耗更多的算力資源。

那么,這么妙的TransformerFAM是如何被探索出來的?相關技術又是啥?

一、從挑戰(zhàn)中來,TransformerFAM為何能幫助大模型“記住更多”?

滑動窗口注意力(Sliding Window Attention, SWA)這個概念,對TransformerFAM的設計至關重要。

在傳統(tǒng)的Transformer模型中,自注意力(Self-Attention)的復雜度隨著序列長度的增加而呈二次方增長,這限制了模型處理長序列的能力。

“在電影《記憶碎片》(2000 年)中,主角患有順行性遺忘癥,這意味著他無法記住過去 10 分鐘發(fā)生的事情,但他的長期記憶是完好的,他不得不將重要信息紋在身上以記住它們。這與當前大型語言模型(LLMs)的狀態(tài)類似,”論文中這樣寫道。   

《記憶碎片》電影截圖,圖片源于網(wǎng)絡《記憶碎片》電影截圖,圖片源于網(wǎng)絡

滑動窗口注意力(Sliding Window Attention),它是一種改進的注意力機制,用于處理長序列數(shù)據(jù)。它受到了計算機科學中滑動窗口技術(sliding window technique)的啟發(fā)。在處理自然語言處理(NLP)任務時,SWA允許模型在每個時間步驟上只關注輸入序列的一個固定大小的窗口,而不是整個序列。因此,SWA的優(yōu)點在于它可以顯著減少計算量。

圖片圖片

但是SWA有局限性,因為它的注意力范圍受限于窗口大小,這導致模型無法考慮到窗口之外的重要信息。

TransformerFAM通過添加反饋激活,將上下文表示重新輸入到滑動窗口注意力的每個區(qū)塊中,從而實現(xiàn)了集成注意力、區(qū)塊級更新、信息壓縮和全局上下文存儲。

在TransformerFAM中,改進通過反饋循環(huán)實現(xiàn)。具體來說,模型在處理當前序列塊時,不僅關注當前窗口內(nèi)的元素,還會將之前處理過的上下文信息(即之前的“反饋激活”)作為額外的輸入重新引入到注意力機制中。這樣,即使模型的注意力窗口在序列上滑動,它也能夠保持對之前信息的記憶和理解。

于是,經(jīng)過這番改進,TransformerFAM就給了LLMs能夠處理無限長度序列的潛力!

二、有了工作記憶的大模型,繼續(xù)向AGI邁進

TransformerFAM在研究中展現(xiàn)出了積極的前景,這將毫無疑問地提升AI在理解和生成長文本任務中的性能,例如處理文檔摘要、故事生成、問答等工作。

圖片圖片

同時,無論是智能助手還是情感陪伴,一個有無限記憶力的AI聽起來都更有吸引力。

有趣的是,TransformerFAM的設計靈感來源于生物學中的記憶機制,這一點與AGI追求的自然智能模擬不謀而合。這篇論文正是一個來自神經(jīng)科學的概念——基于注意力的工作記憶——整合到深度學習領域的嘗試。

TransformerFAM通過反饋循環(huán)為大模型引入了工作記憶,使得模型不僅能夠記住短期的信息,還能夠在長期序列中維持對關鍵信息的記憶。   

通過大膽的想象,研究人員在現(xiàn)實世界與抽象概念間假設起橋梁。隨著TransformerFAM這樣的創(chuàng)新成果繼續(xù)涌現(xiàn)出來,技術的瓶頸會一次次被突破,一個更加智能、互聯(lián)的未來正向我們徐徐地展開畫卷。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-06-28 08:04:43

語言模型應用

2025-05-07 09:12:00

模型研究LLM

2025-03-18 09:23:22

2024-12-09 00:00:10

2023-05-05 13:11:16

2024-12-17 14:39:16

2024-03-14 08:11:45

模型RoPELlama

2024-04-03 14:31:08

大型語言模型PytorchGQA

2023-11-13 18:19:54

模型訓練

2024-07-01 12:17:54

2017-09-10 14:29:03

眼力

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡算法

2024-09-19 10:07:41

2025-06-17 09:05:00

2025-02-20 10:14:04

2023-07-29 13:26:51

模型AI

2024-06-03 10:56:53

2025-02-26 14:15:00

模型智能體AI

2024-12-27 13:59:33

數(shù)據(jù)訓練模型

2022-02-21 09:25:57

VR研究Nature
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色综合色综合色综合 | 亚洲国产18 | 亚洲精品在线观看网站 | 男人天堂网址 | 国产日韩欧美一区二区 | 性色综合 | 中文在线www | 日韩电影中文字幕 | 亚洲免费人成在线视频观看 | 欧美高清视频在线观看 | 日韩精品一区二 | 台湾a级理论片在线观看 | av在线免费观看网站 | 国产高清免费 | 亚洲一区二区三区四区在线观看 | 国产你懂的在线观看 | 国产999精品久久久影片官网 | 高清视频一区二区三区 | 精品免费 | 九九热这里 | 99热在线播放 | 国产精品久久久久久久久久久久 | 欧美日本一区 | 玖玖视频 | 亚洲一区二区中文字幕 | 欧美高清视频在线观看 | 人人草人人干 | 欧美理论| 成人亚洲网站 | 精品一区av| 97色综合 | 天天操天天射综合网 | 99精品99| 午夜私人影院 | 天天看天天爽 | 中文字幕加勒比 | 国产一区二区三区四区五区3d | 亚洲黄色片免费观看 | 成年人网站免费 | 精品国产久 | 91精品国产91久久综合桃花 |