成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<output id="zytie"><form id="zytie"></form></output><abbr id="zytie"><strong id="zytie"><td id="zytie"></td></strong></abbr>

<mark id="zytie"><option id="zytie"><small id="zytie"></small></option></mark>

<abbr id="zytie"><dl id="zytie"></dl></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至原創

發布于 2024-4-17 12:58

瀏覽

0收藏

編輯|伊風

出品 | 51CTO技術棧（微信號：blog51cto）

谷歌終于出手了！我們將不再忍受大模型的“健忘癥”。

TransformerFAM橫空出世，放話要讓大模型擁有無限記憶力！

話不多說，先來看看TransformerFAM的“療效”：

谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至-AI.x社區圖片

大模型在處理長上下文任務時的性能得到了顯著提升！

上圖中，Isabelle、NarrativeQA等任務要求模型理解和處理大量上下文信息，并對特定問題給出準確的回答或摘要。在所有任務中，FAM配置的模型都優于所有其他BSWA配置，并且能看到當超過某個點時，BSWA記憶段數量的增加已經無法繼續提升其記憶能力。

看來，在卷長文本、長對話的路上，FAM這顆大模型的“忘不了”確實有點東西。

Google 的研究人員介紹，FAM這種新穎的 Transformer 架構——Feedback Attention Memory，它利用反饋循環使網絡能夠關注其自身的潛在表示，促進 Transformer 內部工作記憶的出現，并使其能夠處理無限長的序列。

簡單點說，這個策略有點像我們人工對抗大模型“失憶”的策略：每次和大模型對話前都再輸入一次prompt。只不過FAM的做法更高階一些，在模型處理新的數據塊時，它會將之前處理過的信息（即FAM）作為一個動態更新的上下文，再次整合到當前的處理過程中。

這樣就能很好地應對“愛忘事”的問題了。更妙的是，盡管引入了反饋機制來維持長期的工作記憶，但FAM的設計旨在保持與預訓練模型的兼容性，不需要額外的權重。所以理論上說，大模型的強大記憶力，沒有使其變得遲鈍或者消耗更多的算力資源。

那么，這么妙的TransformerFAM是如何被探索出來的？相關技術又是啥？

一、從挑戰中來，TransformerFAM為何能幫助大模型“記住更多”？

滑動窗口注意力（Sliding Window Attention, SWA）這個概念，對TransformerFAM的設計至關重要。

在傳統的Transformer模型中，自注意力（Self-Attention）的復雜度隨著序列長度的增加而呈二次方增長，這限制了模型處理長序列的能力。

“在電影《記憶碎片》（2000 年）中，主角患有順行性遺忘癥，這意味著他無法記住過去 10 分鐘發生的事情，但他的長期記憶是完好的，他不得不將重要信息紋在身上以記住它們。這與當前大型語言模型（LLMs）的狀態類似，”論文中這樣寫道。

谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至-AI.x社區《記憶碎片》電影截圖，圖片源于網絡

滑動窗口注意力（Sliding Window Attention），它是一種改進的注意力機制，用于處理長序列數據。它受到了計算機科學中滑動窗口技術（sliding window technique）的啟發。在處理自然語言處理（NLP）任務時，SWA允許模型在每個時間步驟上只關注輸入序列的一個固定大小的窗口，而不是整個序列。因此，SWA的優點在于它可以顯著減少計算量。

谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至-AI.x社區圖片

但是SWA有局限性，因為它的注意力范圍受限于窗口大小，這導致模型無法考慮到窗口之外的重要信息。

TransformerFAM通過添加反饋激活，將上下文表示重新輸入到滑動窗口注意力的每個區塊中，從而實現了集成注意力、區塊級更新、信息壓縮和全局上下文存儲。

在TransformerFAM中，改進通過反饋循環實現。具體來說，模型在處理當前序列塊時，不僅關注當前窗口內的元素，還會將之前處理過的上下文信息（即之前的“反饋激活”）作為額外的輸入重新引入到注意力機制中。這樣，即使模型的注意力窗口在序列上滑動，它也能夠保持對之前信息的記憶和理解。

于是，經過這番改進，TransformerFAM就給了LLMs能夠處理無限長度序列的潛力！

二、有了工作記憶的大模型，繼續向AGI邁進

TransformerFAM在研究中展現出了積極的前景，這將毫無疑問地提升AI在理解和生成長文本任務中的性能，例如處理文檔摘要、故事生成、問答等工作。

谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至-AI.x社區圖片

同時，無論是智能助手還是情感陪伴，一個有無限記憶力的AI聽起來都更有吸引力。

有趣的是，TransformerFAM的設計靈感來源于生物學中的記憶機制，這一點與AGI追求的自然智能模擬不謀而合。這篇論文正是一個來自神經科學的概念——基于注意力的工作記憶——整合到深度學習領域的嘗試。

TransformerFAM通過反饋循環為大模型引入了工作記憶，使得模型不僅能夠記住短期的信息，還能夠在長期序列中維持對關鍵信息的記憶。

通過大膽的想象，研究人員在現實世界與抽象概念間假設起橋梁。隨著TransformerFAM這樣的創新成果繼續涌現出來，技術的瓶頸會一次次被突破，一個更加智能、互聯的未來正向我們徐徐地展開畫卷。

本文轉載自??51CTO技術棧??，作者：伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2024-4-17 13:56:28修改

贊

收藏

回復

舉報

回復

相關推薦

基于多級注意力機制的并行預測模型

Tang_Lan ? 4753瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 3388瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3183瀏覽 ? 0回復
聊聊組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3110瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 4446瀏覽 ? 0回復
LLM基礎模型系列：深入注意力機制

魯班模錘1 ? 3276瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結合注意力機制！

Tang_Lan ? 5809瀏覽 ? 0回復
注意力機制的變體之MLA

shizhi02 ? 7190瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2859瀏覽 ? 0回復
【深度探索】FlashAttention-3：深度學習注意力機制的再進化

sword_hero ? 2917瀏覽 ? 0回復
基于深度學習故障診斷注意力機制案例分析

步驚云_32 ? 2159瀏覽 ? 0回復
大模型神經網絡之注意力機制——attention

AI探索時代 ? 2206瀏覽 ? 0回復
高效注意力機制與硬件優化：硬件優化的稀疏注意力，長上下文建模

AI研究前瞻 ? 2279瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 2017瀏覽 ? 0回復
一文吃透自注意力機制

人工智能訓練營 ? 4372瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：多頭潛在注意力機制（MLA）

Baihai_IDP ? 2586瀏覽 ? 0回復
一文讀懂 15 種注意力機制

智駐未來 ? 3527瀏覽 ? 0回復
LLM 上下文管理：智能應用的核心競爭力

草臺AI ? 1425瀏覽 ? 0回復
大型語言模型容易被無關上下文分散注意力(ICLM)

AIRoobt ? 968瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

Devin聯合創始人：別搞多智能體系統！微軟和OpenAI鼓吹的代理構建理念大錯特錯！ 1回復

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

上一篇：百度公開12個月打造AI原生應用思路！李彥宏再談開源大模型！

下一篇：這款Linux發行版發起AI禁令！生成代碼質量堪憂！阿里也被大模型幻覺愚弄了！網友：人比生產力更重要！

社區精華內容

目錄

主站蜘蛛池模板：久热免费 | 欧美在线网站 | 国产乱码精品一品二品 | 国产草草视频 | 久久精品亚洲精品国产欧美 | 操操日 | 亚洲精品久久久久中文字幕欢迎你 | 亚洲精品第一 | 久久精品99 | 美女网站视频免费黄 | 在线国产视频 | 伊人精品在线视频 | 成人精品免费视频 | 亚洲精品黄 | 欧美精品一区二区三区在线四季 | 91视频在线观看免费 | 久久免费小视频 | 在线观看av网站永久 | 国产精品成人国产乱一区 | 久久爆操 | 欧美成人一区二免费视频软件 | 亚洲女优在线播放 | 狠狠操狠狠操 | 欧美精品在线免费 | 亚洲欧美中文日韩在线v日本 | 欧美日韩亚洲一区 | 国产在线91| 午夜看片 | 九九在线视频 | 国产一区二区三区色淫影院 | 一级黄色在线 | 欧美福利| 91精品国产综合久久香蕉麻豆 | 色爱综合 | 在线成人av | 亚洲www啪成人一区二区麻豆 | 91在线网 | 国产视频精品免费 | 日韩中文字幕 | 中文在线观看视频 | 天天干夜夜操 |

<label id="ogebj"><em id="ogebj"></em></label>

<mark id="ogebj"><option id="ogebj"></option></mark>

<output id="ogebj"></output>

<button id="ogebj"><noscript id="ogebj"></noscript></button>