魔改RNN挑戰Transformer，RWKV上新：推出兩種新架構模型

作者：量子位 2024-04-15 07:50:00

新架構的設計進步包括多頭矩陣值狀態（multi-headed matrix-valued states）和動態遞歸機制（dynamic recurrence mechanism），這些改進提高了RWKV模型的表達能力，同時保持RNN的推理效率特征。

不走Transformer尋常路，魔改RNN的國產新架構RWKV，有了新進展：

提出了兩種新的RWKV架構，即Eagle (RWKV-5) 和Finch（RWKV-6)。

這兩種序列模型以RWKV-4架構為基礎，然后作了改進。

新架構的設計進步包括多頭矩陣值狀態（multi-headed matrix-valued states）和動態遞歸機制（dynamic recurrence mechanism），這些改進提高了RWKV模型的表達能力，同時保持RNN的推理效率特征。

同時，新架構引入了一個新的多語言語料庫，包含1.12萬億個令牌。

團隊還基于貪婪匹配（greedy matching）開發了一種快速的分詞器，以增強RWKV的多語言性。

目前，4個Eagle模型和2個Finch模型，都已經在抱抱臉上發布了～

新模型Eagle和Finch

此次更新的RWKV，共包含6個模型，分別是：

4個Eagle（RWKV-5）模型：分別為0.4B、1.5B、3B、7B參數大小；
2個Finch（RWKV-6）模型：分別是1.6B、3B參數大小。

Eagle通過使用多頭矩陣值狀態（而非向量值狀態）、重新構造的接受態和額外的門控機制，改進了從RWKV-4中學習到的架構和學習衰減進度。

Finch則通過引入新的數據相關函數，進一步改進架構的表現能力和靈活性，用于時間混合和令牌移位模塊，包括參數化線性插值。

此外，Finch提出了對低秩自適應函數的新用法，以使可訓練的權重矩陣能夠以一種上下文相關的方式有效地增強學習到的數據衰減向量。

最后，RWKV新架構引入了一種新的分詞器RWKV World Tokenizer，和一個新數據集RWKV World v2，兩者均用于提高RWKV模型在多語言和代碼數據上的性能。

其中的新分詞器RWKV World Tokenizer包含不常見語言的詞匯，并且通過基于Trie的貪婪匹配（greedy matching）進行快速分詞。

而新數據集RWKV World v2是一個新的多語言1.12T tokens數據集，取自各種手工選擇的公開可用數據源。

其數據組成中，約70%是英語數據，15%是多語言數據，15%是代碼數據。

基準測試結果如何？

光有架構創新還不夠，關鍵要看模型的實際表現。

來看看新模型在各大權威評測榜單上的成績——

MQAR測試結果

MQAR （Multiple Query Associative Recall）任務是一種用于評估語言模型的任務，旨在測試模型在多次查詢情況下的聯想記憶能力。

在這類任務中，模型需要通過給定的多個查詢來檢索相關的信息。

MQAR任務的目標是衡量模型在多次查詢下檢索信息的能力，以及其對不同查詢的適應性和準確性。

下圖為RWKV-4、Eagle、 Finch和其他非Transformer架構的MQAR任務測試結果。

可以看出，在MQAR任務的準確度測試中， Finch在多種序列長度測試中的準確度表現都非常穩定，對比RWKV-4、RWKV-5和其他非Transformer架構的模型有顯著的性能優勢。

長上下文實驗

在PG19測試集上測試了從2048 tokens開始的RWKV-4、Eagle和Finch的loss與序列位置。

（所有模型均基于上下文長度4096進行預訓練）。

測試結果顯示， Eagle在長序列任務上比RWKV-4有了顯著的改進，而在上下文長度4096訓練的Finch的表現比Eagle更好，可以良好地自動適應到20000以上的上下文長度。

速度和顯存基準測試

速度和內存基準測試中，團隊比較了Finch、Mamba和Flash Attention的類Attention內核的速度和顯存利用率。

可以看到，Finch在內存使用方面始終優于Mamba和Flash Attention，而內存使用量分別比Flash Attention和Mamba少40%和17%。

多語言任務表現

日語

西班牙語

阿拉伯語

日語-英語

下一步工作

以上研究內容，來自RWKV Foundation發布的最新論文《Eagle and Finch：RWKV with Matrix-Valued States and Dynamic Recurrence》。

論文由RWKV創始人Bo PENG（彭博）和RWKV開源社區成員共同完成。

共同一作彭博，畢業于香港大學物理系，編程經驗20+年，曾在世界最大外匯對沖基金之一Ortus Capital就職，負責高頻量化交易。

還出版過一本關于深度卷積網絡的書籍《深度卷積網絡·原理與實踐》。

他的主要關注和興趣方向在軟硬件開發方面，在此前的公開訪談中，他曾明確表示AIGC是自己的興趣所在，尤其是小說生成。

目前，彭博在Github有2.1k的followers。

但他的最主要公開身份是一家燈具公司稟臨科技的聯合創始人，主要是做陽光燈、吸頂燈、便攜臺燈什么的。

并且其人應該是一個喵星人資深愛好者，Github、知乎、微信頭像，以及燈具公司的官網首頁、微博上，都有一只橘貓的身影。

量子位獲悉，RWKV當前的多模態工作包含RWKV Music（音樂方向）和 VisualRWKV（圖像方向）。

接下來，RWKV的重點工作將放在以下幾個方向：

擴展訓練語料庫，使其更加多樣化（這是改進模型性能的關鍵事項）；
訓練和發布更大版本的Finch，如7B和14B參數，并通過MoE降低推理和訓練成本，進一步擴展其性能。
對Finch的CUDA實現做進一步優化（包括算法改進），帶來速度的提升和更大的并行化。

論文鏈接：

https://arxiv.org/pdf/2404.05892.pdf

責任編輯：張燕妮來源：量子位

AI 架構

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看