成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Transformer,會笑到最后嗎? 原創

發布于 2024-8-20 14:08
瀏覽
0收藏

出品 | 51CTO技術棧(微信號:blog51cto)

Transformer 架構為當今最流行的公共和私有AI 模型提供支持。那么我們想知道——接下來是什么?這種架構是否會帶來更好的推理?Transformer 之后會是什么?

一、Transformer 的問題及其挑戰者們

Transformer 架構的自注意力機制允許模型同時衡量每個輸入 token 對輸入序列中所有 token 的重要性。通過捕獲長距離依賴關系和復雜的 token 關系,這有助于提高模型對語言和計算機視覺的理解。然而,這意味著計算復雜度會隨著長序列(例如 DNA)的增加而增加,從而導致性能下降和內存消耗增加。解決長序列問題的一些解決方案和研究方法包括:

在硬件上改進 Transformer :FlashAttention是一項很有前途的技術。本文聲稱,通過仔細管理 GPU 上不同級別的快速和慢速內存的讀寫,可以提高 Transformer 的性能。這是通過使注意力算法具有 IO 感知能力來實現的,這減少了 GPU 的高帶寬內存 (HBM) 和靜態隨機存取存儲器 (SRAM) 之間的讀寫次數。

近似注意力:自注意力機制具有 O(n^2) 復雜度,其中 n 表示輸入序列的長度。有沒有辦法將這種二次計算復雜度降低到線性,以便 Transformer 可以更好地處理長序列?這里的優化包括 Reformer、Performers、 Skyformer等技術。

除了這些降低 transformer 復雜性的優化之外,一些替代模型正在挑戰 transformer 的主導地位(但對于大多數模型來說還處于早期階段):

狀態空間模型:這是一類與循環 (RNN) 和卷積 (CNN) 神經網絡相關的模型,它們對長序列進行線性或近線性計算復雜度計算。像Mamba這樣的狀態空間模型 (SSM)可以更好地處理長距離關系,但在性能上落后于 Transformer。

這些研究方法現在已經走出了大學實驗室,并以新模型的形式進入公共領域,供所有人嘗試。此外,最新的模型發布可以告訴我們底層技術的狀態以及 Transformer 替代方案的可行路徑。

二、值得關注的發布

我們不斷聽到 OpenAI、Cohere、Anthropic 和 Mistral 等知名公司發布最新最出色的模型的消息。Meta 的編譯器優化基礎模型因其在代碼和編譯器優化方面的有效性而引人注目。

除了主流的 Transformer 架構外,我們現在還看到了生產級狀態空間模型 (SSM)、混合 SSM-Transformer 模型、專家混合 (MoE) 和專家組合 (CoE) 模型。與最先進的開源模型相比,這些模型在多個基準測試中表現良好。其中脫穎而出的包括:

Databricks開源 DBRX模型:該 MoE 模型有 132B 個參數。它有 16 位專家,其中 4 位在推理或訓練期間同時處于活動狀態。它支持 32K 上下文窗口,并且該模型在 12T 令牌上進行訓練。其他一些有趣的細節 — — 它耗時 3 個月,耗資 1000 萬美元,使用 3072 個 Nvidia GPU 通過 3.2Tbps InfiniBand 連接,完成了模型的預訓練、后訓練、評估、紅隊測試和細化。

SambaNova Systems 發布的Samba CoE v0.2:該 CoE 模型由五個 7B 參數專家組成,其中只有一個在推理時處于活動狀態。這些專家都是開源模型,除了專家之外,該模型還有一個路由器。它可以了解哪個模型最適合特定查詢,并將請求路由到該模型。它的速度非常快,每秒生成 330 個令牌。

AI21 實驗室發布了Jamba:這是一種混合 Transformer-Mamba MoE 模型。它是第一個基于 Mamba 的生產級模型,具有傳統 Transformer 架構的元素。“Transformer 模型有兩個缺點:首先,其高內存和計算要求阻礙了長上下文的處理,其中鍵值 (KV) 緩存大小成為限制因素。其次,由于每個生成的 token 都會對整個上下文執行計算,因此它缺乏單一的摘要狀態,導致推理速度慢且吞吐量低”。像 Mamba 這樣的 SSM 可以更好地處理長距離關系,但在性能上落后于 Transformer。Jamba 彌補了純 SSM 模型的固有限制,提供 256K 上下文窗口并在單個 GPU 上容納 140K 上下文。

三、企業采用挑戰

盡管最新的研究和模型發布對支持 Transformer 架構作為下一個前沿領域有著巨大的希望,但我們還必須考慮阻礙企業利用這一優勢的技術挑戰:

1.缺少適合企業的功能

想象一下,向 CXO 銷售的產品沒有基于角色的訪問控制 (RBAC)、單點登錄 (SSO) 或無法訪問日志(提示和輸出)等簡單功能。當今的模型可能還不適合企業,但企業正在制定單獨的預算,以確保他們不會錯過下一個重大事件。

2.打破以往的運作方式

AI Copilot和Agent將會使數據和應用程序的安全變得更加復雜。

想象一個簡單的用例:你每天使用的視頻會議應用程序引入了 AI 摘要功能。作為用戶,你可能喜歡會議后獲取記錄的功能,但在受監管的行業中,這一增強功能可能突然成為 CISO 的噩夢。實際上,到目前為止運行良好的功能已經失效,需要經過額外的安全審查。當 SaaS 應用程序引入此類功能時,企業需要設置護欄來確保數據隱私和合規性。

3.RAG與微調的取舍

可以同時部署兩者或不部署兩者,而無需做出太多犧牲。人們可以將檢索增強生成 (RAG) 視為確保事實正確呈現且信息最新的一種方式,而微調則可以被視為可實現最佳模型質量。微調很難,這導致一些模型供應商不建議這樣做。它還包括過度擬合的挑戰,這會對模型質量產生不利影響。微調似乎受到多方壓力——隨著模型上下文窗口的增加和代幣成本的下降,RAG 可能成為企業的更好部署選擇。

在 RAG 的背景下, Cohere 最近推出的 Command R+ 模型是第一個在聊天機器人領域擊敗 GPT-4 的開放權重模型。Command R+ 是最先進的 RAG 優化模型,旨在為企業級工作流程提供支持。 

四、寫在最后

這一波AI的部署始于更加智能的聊天機器人。20多個月過去,初創公司和企業已經想出了如何將GenAI打包成Copilot,以增強人類的知識和技能。下一步自然是將多步驟工作流、記憶和個性化等內容打包成智能體,以解決銷售和工程等多種職能中的用例。

可以預期的是,用戶的簡單提示將使Agent能夠對意圖進行分類,將目標分解為多個步驟并完成任務,無論是互聯網搜索、將身份驗證分解為多種工具還是從過去的重復行為中學習。

想預訂夏威夷之旅、從你最喜歡的餐廳訂餐或管理個人財務嗎?未來諸位都能夠使用個性化Agent來安全地管理這些任務,這是有可能的,但從技術角度來看,我們距離這個未來還很遙遠。

本文轉載自??51CTO技術棧??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线精品一区二区三区 | 深夜福利亚洲 | 国产一区二区久久 | 免费一级欧美在线观看视频 | 亚洲天堂精品久久 | 天色综合网 | 亚洲在线免费观看 | 91视频电影 | 中文字幕福利 | 91av视频在线播放 | 狠狠色综合久久婷婷 | 日韩亚洲视频 | 黄色av网站在线观看 | 欧美v日韩 | 国产精品久久久久久高潮 | 97精品国产97久久久久久免费 | 国产又爽又黄的视频 | 美女国产 | 91亚洲国产成人久久精品网站 | 给我免费的视频在线观看 | 91精品国产综合久久久久久丝袜 | 国产情侣在线看 | 91视频免费在观看 | 不卡视频在线 | 国产一区精品 | 亚洲国产情侣自拍 | 久久蜜桃av一区二区天堂 | 中文字幕成人免费视频 | 色婷婷av一区二区三区软件 | 在线观看国产www | 羞羞视频网页 | 日日夜夜天天久久 | 狠狠狠色丁香婷婷综合久久五月 | 国产激情偷乱视频一区二区三区 | 91视频大全 | 久久88 | 欧美乱大交xxxxx另类电影 | 国产欧美日韩一区二区三区在线观看 | a在线视频| 日韩欧美三级 | 亚洲欧美在线观看 |