成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

人工智能 新聞
目前 RWKV 已經迭代到第六代 RWKV-6,由于 RWKV 的性能與大小相似的 Transformer 相當,未來研究者可以利用這種架構創建更高效的模型。

無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

在 AI 賽道中,與動輒上千億參數的模型相比,最近,小模型開始受到大家的青睞。比如法國 AI 初創公司發布的 Mistral-7B 模型,其在每個基準測試中,都優于 Llama 2 13B,并且在代碼、數學和推理方面也優于 LLaMA 1 34B。

與大模型相比,小模型具有很多優點,比如對算力的要求低、可在端側運行等。

近日,又有一個新的語言模型出現了,即 7.52B 參數 Eagle 7B,來自開源非盈利組織 RWKV,其具有以下特點:


  • 基于 RWKV-v5 架構構建,該架構的推理成本較低(RWKV 是一個線性 transformer,推理成本降低 10-100 倍以上);
  • 在 100 多種語言、1.1 萬億 token 上訓練而成;
  • 在多語言基準測試中優于所有的 7B 類模型;
  • 在英語評測中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
  • 英語評測中與 MPT-7B (1T) 相當;
  • 沒有注意力的 Transformer。

圖片

前面我們已經了解到 Eagle 7B 是基于 RWKV-v5 架構構建而成,RWKV(Receptance Weighted Key Value)是一種新穎的架構,有效地結合了 RNN 和 Transformer 的優點,同時規避了兩者的缺點。該架構設計精良,能夠緩解 Transformer 所帶來的內存瓶頸和二次方擴展問題,實現更有效的線性擴展,同時保留了使 Transformer 在這個領域占主導的一些性質。

目前 RWKV 已經迭代到第六代 RWKV-6,由于 RWKV 的性能與大小相似的 Transformer 相當,未來研究者可以利用這種架構創建更高效的模型。

關于 RWKV 更多信息,大家可以參考「Transformer 時代重塑 RNN,RWKV 將非 Transformer 架構擴展到數百億參數」。

值得一提的是,RWKV-v5 Eagle 7B 可以不受限制地供個人或商業使用。

在 23 種語言上的測試結果

不同模型在多語言上的性能如下所示,測試基準包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。

圖片


圖片

共 23 種語言

這些基準測試包含了大部分常識推理,顯示出 RWKV 架構從 v4 到 v5 在多語言性能上的巨大飛躍。不過由于缺乏多語言基準,該研究只能測試其在 23 種較常用語言上的能力,其余 75 種以上語言的能力目前仍無法得知。

在英語上的性能

不同模型在英語上的性能通過 12 個基準來判別,包括常識性推理和世界知識。

圖片

從結果可以再次看出 RWKV 從 v4 到 v5 架構的巨大飛躍。v4 之前輸給了 1T  token 的 MPT-7b,但 v5 卻在基準測試中開始追上來,在某些情況下(甚至在某些基準測試 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上)它可以超過 Falcon,甚至 llama2。

此外,根據給定的近似 token 訓練統計,v5 性能開始與預期的 Transformer 性能水平保持一致。

此前,Mistral-7B 利用 2-7 萬億 Token 的訓練方法在 7B 規模的模型上保持領先。該研究希望縮小這一差距,使得 RWKV-v5 Eagle 7B 超越 llama2 性能并達到 Mistral 的水平。

下圖表明,RWKV-v5 Eagle 7B 在 3000 億 token 點附近的 checkpoints 顯示出與 pythia-6.9b 類似的性能:

這與之前在 RWKV-v4 架構上進行的實驗(pile-based)一致,像 RWKV 這樣的線性 transformers 在性能水平上與 transformers 相似,并且具有相同的 token 數訓練。

可以預見,該模型的出現標志著迄今為止最強的線性 transformer(就評估基準而言)已經來了。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-02-19 14:09:00

模型Eagle 7BRNN

2024-09-05 14:25:00

訓練代碼

2024-07-01 12:17:54

2021-08-10 15:37:45

AI 數據機器學習

2023-01-05 21:25:06

毫末

2024-06-28 08:04:43

語言模型應用

2024-12-27 13:59:33

數據訓練模型

2025-02-19 15:17:24

2024-06-03 10:56:53

2024-12-09 00:00:10

2024-07-08 13:04:01

2024-01-26 13:18:00

AI訓練

2025-02-12 09:20:12

2023-05-05 13:11:16

2023-12-11 15:40:32

PyTorch代碼大模型

2025-03-18 09:23:22

2023-12-14 13:30:00

AI模型

2025-04-11 09:15:00

語言模型AI數據

2025-02-24 11:31:33

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美在线观看 | 精品一区二区在线观看 | 亚洲国产一区二区视频 | 国产精品久久久久久久久久久久冷 | 国产精品区二区三区日本 | 国产精品不卡 | 午夜影院| 免费在线国产视频 | 久久精品国产亚洲夜色av网站 | 欧美日韩三区 | 精品国产一级 | 伊人热久久 | 99热在线播放| 国产一区二区高清在线 | 亚洲第一av网站 | 亚洲高清在线观看 | 91免费视频观看 | 国产一区二区在线免费观看 | 欧美jizzhd精品欧美巨大免费 | 国产黄色在线观看 | 亚洲一区二区久久久 | 欧美高清性xxxxhd | 久久久女女女女999久久 | 久久久久国产 | 99久久精品国产麻豆演员表 | 亚洲一区二区三区在线免费 | 国产成人艳妇aa视频在线 | www日韩欧美 | 欧美日韩在线综合 | 国产精品欧美一区二区 | 中文在线a在线 | 成人精品在线观看 | 国产丝袜一区二区三区免费视频 | 91精品国产乱码久久久久久久 | 日韩二区三区 | 56pao在线 | 亚洲精品自在在线观看 | 久久午夜精品 | 在线黄色网| av黄色免费在线观看 | 羞羞视频在线观看 |