基于閃電注意力機制,創新高效開源大模型
從數學競賽、編程到自然語言處理,通過大規模的強化學習的模型正不斷提升其推理能力。但傳統的Transformer架構由于其注意力機制的二次計算復雜度,在處理長文本和復雜推理任務時面臨著效率瓶頸。
盡管有研究提出了多種改進方法,如稀疏注意力、線性注意力等,但這些方法在大規模推理模型中的應用效果尚未得到充分驗證,大多數領先的模型仍然依賴于傳統的注意力設計。
所以,MiniMax開源了基于閃電注意力機制的專家混合模型Minimax。
開源地址:https://github.com/MiniMax-AI/MiniMax-M1
在架構方面,MiniMax-M1總參數為4560億,459億參數處于激活狀態,包含32個專家。其注意力設計采用混合模式,每七個配備閃電注意力機制的Transnormer塊后跟隨一個帶有Softmax注意力的Transformer塊。
這種設計從理論上支持推理長度高效擴展至數十萬token,例如,在生成長度為10萬token時,相比DeepSeek R1僅消耗25%的FLOPs,顯著降低了計算成本。同時,模型原生支持100萬token的上下文長度,是DeepSeek R1的8倍,遠超當前所有開源權重的大型推理模型,為長文本處理和深度推理提供了基礎。
創新模塊方面,MiniMax-M1的核心突破體現在注意力機制和強化學習算法的優化。閃電注意力機制作為線性注意力的一種I/O感知實現,通過減少傳統softmax注意力的二次計算復雜度,實現了測試時計算的高效擴展。
該機制不僅在推理階段提升效率,還為強化學習訓練提供了天然優勢,配合混合MoE架構,使得模型在處理長序列時的計算量增長更接近線性,而非傳統架構的指數級增長。
另一關鍵創新是CISPO算法,這是一種專為提升強化學習效率設計的新型算法。CISPO放棄了信任區域約束,轉而對重要性采樣權重進行裁剪,確保所有token都能參與梯度計算,避免了傳統PPO/GRPO中因裁剪token更新導致的關鍵推理節點丟失問題。
例如,在基于Qwen2.5-32B模型的對照實驗中,CISPO相比DAPO實現了2倍的速度提升,且在相同訓練步數下性能優于GRPO和DAPO,有效穩定了訓練過程并加速了模型收斂。
在訓練框架上,MiniMax-M1結合混合注意力與CISPO算法,實現了高效的強化學習擴展。模型在512塊H800 GPU上僅用三周完成全RL訓練,租賃成本約53.47萬美元。
訓練數據涵蓋從傳統數學推理到基于沙盒的現實軟件工程環境等多元任務,其中可驗證問題通過規則驗證,非可驗證問題則借助生成式獎勵模型提供反饋。此外,模型還通過持續預訓練和監督微調強化基礎推理能力,注入鏈狀思維模式,為后續RL階段奠定基礎。
在處理長上下文訓練時,MiniMax-M1采用分階段平滑擴展上下文長度的策略,從32K逐步擴展至100萬token,解決了混合Lightning架構下訓練長度激進擴展導致的梯度爆炸問題。同時,針對訓練與推理內核的精度不匹配問題,通過將LM輸出頭精度提升至FP32,使訓練與推理概率的相關性從0.9左右提升至0.99以上,確保了獎勵增長的穩定性。
針對優化器超參數敏感性,調整AdamW的β?、β?和ε值,適應模型訓練中梯度幅度跨度大、相鄰迭代梯度相關性弱的特點,避免了訓練不收斂的問題。
模型還引入基于token概率的重復檢測早期截斷機制,當連續3000個token的概率均高于0.99時終止生成,防止長序列生成中的重復循環導致模型不穩定,提升了生成吞吐量。這些創新模塊的協同作用,使MiniMax-M1在復雜軟件工程、工具利用和長上下文任務中表現突出,成為下一代語言模型代理處理現實挑戰的堅實基礎。