成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌提出Transformer架構中,表示崩塌、過度壓縮的五個解決方法

人工智能 新聞
谷歌DeepMind 和牛津大學的研究人員發(fā)布了一篇論文,深度研究了在解碼器Transformer架構中的“表示崩塌”和“過度壓縮”兩大難題,同時提供了幾個簡單的解決方案。

Transformer架構的出現(xiàn)極大推動了生成式AI的發(fā)展,在此基礎之上開發(fā)出了ChatGPT、Copilot、訊飛星火、文心一言、Midjourney等一大批知名產(chǎn)品。

但Transformer架構并非完美還存在不少問題,例如,在執(zhí)行需要計數(shù)或復制輸入序列元素的任務經(jīng)常會出錯。而這些操作是推理的基本組件,對于解決日常任務至關重要。

所以,谷歌DeepMind和牛津大學的研究人員發(fā)布了一篇論文,深度研究了在解碼器Transformer架構中的“表示崩塌”和“過度壓縮”兩大難題,同時提供了幾個簡單的解決方案。

圖片

表示崩塌

表示崩潰是指在某些情況下,輸入給大模型的不同序列在經(jīng)過處理后,會生成非常相似甚至幾乎相同的表示,并導致模型無法具體區(qū)分它們。

這是因為Transformer架構中的自注意力機制和位置編碼的設計,使得隨著序列的增長,信息的表示越來越集中,從而導致信息的損失。

圖片

為了更好地解釋這種表示崩潰,研究人員定義了兩個序列的表示差異,并在Gemma 7B大語言模型中進行了實驗。

圖片

一組是逐漸增長的1的序列,另一組是在1的序列末尾添加了一個額外的1。通過觀察這兩組序列在Transformer模型中的表示。

研究人員發(fā)現(xiàn),隨著序列長度的增加,兩組序列的表示差異逐漸減小,直至低于機器的浮點精度,這時大模型已經(jīng)無法精準區(qū)分這兩個序列了。

過度壓縮

過度壓縮現(xiàn)象的出現(xiàn)與表示崩塌有很大關系。在Transformer模型中,過度壓縮的表現(xiàn)為早期輸入的token在模型的最終表示中的影響力減弱,特別是當這些token距離序列的末尾較遠時。

圖片

由于Transformer模型的自注意力機制和層疊結構,數(shù)據(jù)在每一層都會經(jīng)過多次的壓縮和重新分配,這可能導致一些重要的信息在傳播過程中被稀釋或變得非常不明顯。

圖片

為了展示過度壓縮在Transformer中的詳細表現(xiàn),研究人員深度分析了如何通過模型的每一層傳遞并最終影響下一個token的預測。

研究人員發(fā)現(xiàn),對于序列中較早的token,由于它們可以通過更多的路徑影響最終的表示,因此它們的影響力會隨著序列長度的增加而減少。這種影響力隨著token在序列中的位置而變化,序列開始的token比序列末尾的token更容易在模型的表示中保留其信息。

圖片

同樣為了驗證該現(xiàn)象的存在,研究人員在Gemini 1.5和Gemma 7B模型中進行了復制和計數(shù)任務實驗。

結果顯示,當序列長度增加時,模型在復制序列末尾的token時表現(xiàn)不佳,而在復制序列開始的token時表現(xiàn)較好,這基本驗證了過度壓縮的現(xiàn)象確實存在。

五個解決方案

為了解決Transformer架構中的表示崩塌和過度壓縮兩大難題,研究人員提出了5個簡單有效的解決方法。

  • 改進注意力機制:最直接的方法就是改進Transformer架構中的自注意力機制。通過調整注意力權重的分配,可以增強模型對序列中早期token的關注。這可以通過修改注意力分數(shù)的計算方式來實現(xiàn),例如,通過增加對早期token的權重,或者重新設計一種機制,使得模型在處理長序列時不會忽略這些token。
  • 改進位置編碼:位置編碼是Transformer模型中用于捕捉序列中token位置信息的關鍵組件。可以改進這個模塊,例如,使用相對位置編碼或可學習的動態(tài)位置編碼,有助于模型更好地保持序列中各個token的獨特性,從而減少表示崩潰的發(fā)生。
  • 增加大模型深度和寬度:增加模型的深度和寬度可以提供更多的參數(shù)來學習復雜的表示,有助于模型更好地區(qū)分不同的輸入序列。但是對AI算力的需求也非常大,不適合小型企業(yè)和個人開發(fā)者。
  • 使用正則化:例如,使用權重衰減可以幫助模型避免過擬合,有助于減少表示崩潰現(xiàn)象。通過在訓練過程中引入噪聲或限制權重的大小,能抵抗輸入序列的微小變化。
  • 引入外部記憶組件:可以使用外部記憶組件,例如,差分記憶或指針網(wǎng)絡,可以幫助模型存儲和檢索長序列中的信息。這種外部記憶可以作為模型內部表示的補充,提供一種機制來保持序列中關鍵信息的活躍度。

圖片

為了驗證方法的有效性,研究人員在谷歌的Gemini 1.5和Gemma 7B大語言模型中行了綜合評測。結果顯示,改進注意力機制和引入外部記憶組件等方法,確實能有效緩解這兩大難題。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關推薦

2022-04-06 10:09:17

云服務云計算

2013-06-20 09:14:43

2009-08-24 10:37:11

Silverlight

2021-07-13 17:59:13

人工智能機器學習技術

2020-06-09 10:15:21

模型人工智能自然語言

2010-07-15 14:01:12

telnet亂碼

2023-11-03 10:32:58

物聯(lián)網(wǎng)IOT

2021-03-25 11:25:43

云計算云計算產(chǎn)業(yè)云應用

2021-03-26 11:38:29

云計算

2010-07-29 15:44:54

Flex安全沙箱

2011-12-02 14:00:21

JavaOOM

2016-09-23 20:46:53

2009-12-25 10:01:23

WinForm程序

2024-03-26 10:38:47

模塊CommonJSES

2020-10-04 13:29:00

SQL數(shù)據(jù)庫工具

2020-03-27 14:20:55

谷歌Android開發(fā)者

2011-03-01 13:40:45

500 OOPS

2009-09-10 09:35:25

Linq語句

2010-10-13 17:22:12

MySQL查詢亂碼

2009-07-03 18:14:27

Servlet線程安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产91久久综合桃花 | 婷婷午夜天 | 久久久国产精品一区 | 四虎在线观看 | av大片在线观看 | 欧美中文在线 | 亚洲一区二区在线视频 | av在线影院 | 精品欧美一区二区精品久久久 | 精品免费国产一区二区三区四区介绍 | 国产线视频精品免费观看视频 | 久久久久一区 | 婷婷不卡| 婷婷国产一区二区三区 | 亚洲免费人成在线视频观看 | 中文二区 | 日韩视频免费 | 欧美一级免费看 | 久久综合九色综合欧美狠狠 | 色综合天天网 | 国产一区二区日韩 | 免费看国产一级特黄aaaa大片 | 亚洲精品视频免费看 | 久久一区二区三区四区 | 久久网一区二区 | 日韩在线欧美 | 久草影视在线 | 中文字幕日韩欧美 | 懂色中文一区二区三区在线视频 | 精品国产乱码久久久久久闺蜜 | 激情a| 污免费网站 | 天天操网 | 羞羞午夜 | 国产亚洲精品精品国产亚洲综合 | 在线观看国产三级 | 国产在线不卡视频 | 国产精品久久久久久久久久尿 | 亚洲欧美在线视频 | 欧美日韩在线一区二区 | 福利视频一区二区 |