谷歌推出TransformerFAM架構,以更低的消耗處理長序列文本
Transformer對大模型界的影響力不言而喻,ChatGPT、Sora、StableDifusion等知名模型皆使用了該架構。但有一個很明顯的缺點,其注意力復雜度的二次方增長在處理書籍、PDF等超長文檔時會顯著增加算力負擔。雖然會通過滑動窗口注意力和稀疏注意力等技術來解決這一問題,在處理極長序列時仍存在局限性。因此,谷歌的研究人員提出了全新架構TransformerFAM,可以無縫與預訓練模型集成,并通過LoRA進行少量精調從而大幅度提升模型性能。...