成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

魔改RNN挑戰Transformer,RWKV上新:推出兩種新架構模型

人工智能 新聞
新架構的設計進步包括多頭矩陣值狀態(multi-headed matrix-valued states)和動態遞歸機制(dynamic recurrence mechanism),這些改進提高了RWKV模型的表達能力,同時保持RNN的推理效率特征。

不走Transformer尋常路,魔改RNN的國產新架構RWKV,有了新進展:

提出了兩種新的RWKV架構,即Eagle (RWKV-5) 和Finch(RWKV-6)

這兩種序列模型以RWKV-4架構為基礎,然后作了改進。

新架構的設計進步包括多頭矩陣值狀態(multi-headed matrix-valued states)動態遞歸機制(dynamic recurrence mechanism),這些改進提高了RWKV模型的表達能力,同時保持RNN的推理效率特征。

同時,新架構引入了一個新的多語言語料庫,包含1.12萬億個令牌。

團隊還基于貪婪匹配(greedy matching)開發了一種快速的分詞器,以增強RWKV的多語言性。

目前,4個Eagle模型和2個Finch模型,都已經在抱抱臉上發布了~

圖片

新模型Eagle和Finch

此次更新的RWKV,共包含6個模型,分別是:

4個Eagle(RWKV-5)模型:分別為0.4B、1.5B、3B、7B參數大小;
2個Finch(RWKV-6)模型:分別是1.6B、3B參數大小。

圖片

Eagle通過使用多頭矩陣值狀態(而非向量值狀態)、重新構造的接受態和額外的門控機制,改進了從RWKV-4中學習到的架構和學習衰減進度。

Finch則通過引入新的數據相關函數,進一步改進架構的表現能力和靈活性,用于時間混合和令牌移位模塊,包括參數化線性插值。

此外,Finch提出了對低秩自適應函數的新用法,以使可訓練的權重矩陣能夠以一種上下文相關的方式有效地增強學習到的數據衰減向量。

最后,RWKV新架構引入了一種新的分詞器RWKV World Tokenizer,和一個新數據集RWKV World v2,兩者均用于提高RWKV模型在多語言和代碼數據上的性能。

其中的新分詞器RWKV World Tokenizer包含不常見語言的詞匯,并且通過基于Trie的貪婪匹配(greedy matching)進行快速分詞。

而新數據集RWKV World v2是一個新的多語言1.12T tokens數據集,取自各種手工選擇的公開可用數據源。

其數據組成中,約70%是英語數據,15%是多語言數據,15%是代碼數據。

基準測試結果如何?

光有架構創新還不夠,關鍵要看模型的實際表現。

來看看新模型在各大權威評測榜單上的成績——

MQAR測試結果

MQAR (Multiple Query Associative Recall)任務是一種用于評估語言模型的任務,旨在測試模型在多次查詢情況下的聯想記憶能力。

在這類任務中,模型需要通過給定的多個查詢來檢索相關的信息。

MQAR任務的目標是衡量模型在多次查詢下檢索信息的能力,以及其對不同查詢的適應性和準確性。

下圖為RWKV-4、Eagle、 Finch和其他非Transformer架構的MQAR任務測試結果。

圖片

可以看出,在MQAR任務的準確度測試中, Finch在多種序列長度測試中的準確度表現都非常穩定,對比RWKV-4、RWKV-5和其他非Transformer架構的模型有顯著的性能優勢。

長上下文實驗

在PG19測試集上測試了從2048 tokens開始的RWKV-4、Eagle和Finch的loss與序列位置。

(所有模型均基于上下文長度4096進行預訓練)

圖片

測試結果顯示, Eagle在長序列任務上比RWKV-4有了顯著的改進,而在上下文長度4096訓練的Finch的表現比Eagle更好,可以良好地自動適應到20000以上的上下文長度。

速度和顯存基準測試

速度和內存基準測試中,團隊比較了Finch、Mamba和Flash Attention的類Attention內核的速度和顯存利用率。

圖片
圖片

可以看到,Finch在內存使用方面始終優于Mamba和Flash Attention,而內存使用量分別比Flash Attention和Mamba少40%和17%。

多語言任務表現

日語

圖片

西班牙語

圖片

阿拉伯語

圖片

日語-英語

圖片

下一步工作

以上研究內容,來自RWKV Foundation發布的最新論文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》

論文由RWKV創始人Bo PENG(彭博)和RWKV開源社區成員共同完成。

共同一作彭博,畢業于香港大學物理系,編程經驗20+年,曾在世界最大外匯對沖基金之一Ortus Capital就職,負責高頻量化交易。

還出版過一本關于深度卷積網絡的書籍《深度卷積網絡·原理與實踐》。

他的主要關注和興趣方向在軟硬件開發方面,在此前的公開訪談中,他曾明確表示AIGC是自己的興趣所在,尤其是小說生成。

目前,彭博在Github有2.1k的followers。

但他的最主要公開身份是一家燈具公司稟臨科技的聯合創始人,主要是做陽光燈、吸頂燈、便攜臺燈什么的。

并且其人應該是一個喵星人資深愛好者,Github、知乎、微信頭像,以及燈具公司的官網首頁、微博上,都有一只橘貓的身影。

圖片

量子位獲悉,RWKV當前的多模態工作包含RWKV Music(音樂方向)和 VisualRWKV(圖像方向)

接下來,RWKV的重點工作將放在以下幾個方向:

  • 擴展訓練語料庫,使其更加多樣化(這是改進模型性能的關鍵事項)
  • 訓練和發布更大版本的Finch,如7B和14B參數,并通過MoE降低推理和訓練成本,進一步擴展其性能。
  • 對Finch的CUDA實現做進一步優化(包括算法改進),帶來速度的提升和更大的并行化。

論文鏈接:

https://arxiv.org/pdf/2404.05892.pdf

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-06-15 13:07:10

JSP和JavaBea

2024-03-04 08:20:00

谷歌架構AI

2023-05-24 09:36:43

模型架構

2024-07-09 13:29:37

新架構RNNFPS

2015-09-18 12:17:52

華三通信

2021-10-26 17:26:46

JVM架構模型

2016-12-07 13:41:32

AWS混合云云功能

2025-01-26 13:20:49

谷歌AI模型Titans

2024-03-04 13:23:34

數據模型

2024-02-01 12:43:16

模型數據

2013-07-02 13:35:07

虛擬化等級保護天融信

2013-05-23 16:31:14

SDDCSDNSDS

2013-05-24 09:28:15

云計算

2017-04-18 14:31:39

機器學習模型架構

2020-04-01 10:48:28

業務設計架構模型CIO

2024-03-26 13:35:19

模型架構框架

2024-09-02 10:07:52

2025-01-16 08:20:00

2023-11-22 09:00:00

NLP語言模型LSTM
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日皮视频免费 | 免费在线观看一区二区 | 亚洲区一 | 天天综合久久 | 久久久精品一区二区三区 | 波多野结衣在线观看一区二区三区 | 日韩欧美在线一区 | 欧美在线视频网 | 成人午夜在线视频 | 国产在线一区二区三区 | 欧美精品一区二区三区四区五区 | 日韩午夜一区二区三区 | 欧美激情精品久久久久久变态 | 91嫩草精品| 国产精品久久久久久久久久 | 九九九精品视频 | 毛片在线看看 | 一区二区在线 | 天天干国产 | 黄色毛片在线看 | 天天操 夜夜操 | 欧美黄色一区 | 中文字幕第二区 | 在线婷婷 | 国产午夜精品理论片a大结局 | 婷婷色国产偷v国产偷v小说 | 久久精品国产一区二区电影 | 91精品国产91久久久久久 | 国产精品美女久久久久aⅴ国产馆 | 久久精品综合 | 亚洲国产成人精品女人久久久 | 久久99精品久久久 | 亚洲精品91 | 精品九九| 亚洲国产成人精品女人久久久 | 成人在线h | 国内精品久久久久久久影视简单 | 一级大黄 | 在线成人精品视频 | 午夜精品久久久久久久久久久久久 | 99亚洲精品|