直接擴展到無限長，谷歌Infini-Transformer終結上下文長度之爭精華

發布于 2024-4-15 08:51

瀏覽

0收藏

谷歌又放大招了，發布下一代 Transformer 模型 Infini-Transformer。

Infini-Transformer 引入了一種有效的方法，可以將基于 Transformer 的大型語言模型 (LLM) 擴展到無限長輸入，而不增加內存和計算需求。使用該技術，研究者成功將一個 1B 的模型上下文長度提高到 100 萬；應用到 8B 模型上，模型能處理 500K 的書籍摘要任務。

自 2017 年開創性研究論文《Attention is All You Need》問世以來，Transformer 架構就一直主導著生成式人工智能領域。而谷歌對 Transformer 的優化設計最近比較頻繁，幾天前，他們更新了 Transformer 架構，發布 Mixture-of-Depths（MoD），改變了以往 Transformer 計算模式。沒過幾天，谷歌又放出了這項新研究。

專注 AI 領域的研究者都了解內存的重要性，它是智能的基石，可以為 LLM 提供高效的計算。然而，Transformer 和基于 Transformer 的 LLM 由于注意力機制的固有特性，即 Transformer 中的注意力機制在內存占用和計算時間上都表現出二次復雜性。例如，對于批大小為 512、上下文長度為 2048 的 500B 模型，注意力鍵 - 值 (KV) 狀態的內存占用為 3TB。但事實上，標準 Transformer 架構有時需要將 LLM 擴展到更長的序列（如 100 萬 token），這就帶來巨大的內存開銷，并且隨著上下文長度的增加，部署成本也在增加。

基于此，谷歌引入了一種有效的方法，其關鍵組成部分是一種稱為 Infini-attention（無限注意力）的新注意力技術。不同于傳統的 Transformer 使用局部注意力丟棄舊片段，為新片段釋放內存空間。Infini-attention 增加了壓縮內存（compressive memory），可以將使用后的舊片段存儲到壓縮內存中，輸出時會聚合當前上下文信息以及壓縮內存中的信息，因而模型可以檢索完整的上下文歷史。

該方法使 Transformer LLM 在有限內存的情況下擴展到無限長上下文，并以流的方式處理極長的輸入進行計算。

實驗表明，該方法在長上下文語言建模基準測試中的性能優于基線，同時內存參數減少了 100 倍以上。當使用 100K 序列長度進行訓練時，該模型實現了更好的困惑度。此外該研究發現，1B 模型在 5K 序列長度的密鑰實例上進行了微調，解決了 1M 長度的問題。最后，論文展示了具有 Infini-attention 的 8B 模型經過持續的預訓練和任務微調，在 500K 長度的書籍摘要任務上達到了新的 SOTA 結果。

本文貢獻總結如下：

引入了一種實用且強大的注意力機制 Infini-attention—— 具有長期壓縮內存和局部因果注意力，可用于有效地建模長期和短期上下文依賴關系；
Infini-attention 對標準縮放點積注意力（ standard scaled dot-product attention）進行了最小的改變，并通過設計支持即插即用的持續預訓練和長上下文自適應；
該方法使 Transformer LLM 能夠通過流的方式處理極長的輸入，在有限的內存和計算資源下擴展到無限長的上下文。