Mistral 發布 Magistral,他們首款推理模型專為領域特定、透明和多語言推理而設計的
Mistra發布 Magistral —— Mistral AI 首款推理模型 —— 在領域特定、透明和多語言推理方面表現卓越。
最優秀的人類思維并非線性 —— 它在邏輯、洞察、不確定性和發現之間穿梭。推理語言模型使我們能夠增強并委托復雜思考和深度理解給AI,提升我們處理需要精確、逐步深思和分析問題的能力。
但這個領域仍處于起步階段。缺乏處理領域特定問題所需的專業深度、透明度有限,以及在所需語言中推理不一致 —— 這些只是早期思維模型的一些已知局限性。
Magistral —— Mistral的首款推理模型。同時發布開源(https://huggingface.co/mistralai/Magistral-Small-2506)和企業版本,Magistral 旨在以我們熟悉的方式深入思考 —— 同時在專業領域帶來專業知識、可跟蹤和驗證的透明推理,以及深度的多語言靈活性。
1、特色
Magistral 是一個專注于現實世界推理和反饋驅動改進的雙重發布模型。
?發布兩個版本:Magistral Small —— 24B參數開源版本,以及 Magistral Medium —— 更強大的企業版本。
?Magistral Medium 在 AIME2024 上得分 73.6%,在 64 次多數投票中達到 90%。Magistral Small 分別得分 70.7% 和 83.3%。
?原生推理 —— Magistral 的思維鏈在全球語言和字母系統中都能正常工作。
?適用于廣泛的企業用例 —— 從結構化計算和編程邏輯到決策樹和基于規則的系統。
?通過 Le Chat 中的新思考模式和閃速回答,您可以獲得比大多數競爭對手快 10 倍的響應速度。
?此次發布由論文(https://mistral.ai/static/research/magistral.pdf)支持,涵蓋了 Magistral 的綜合評估、訓練基礎設施、強化學習算法,以及訓練推理模型的新穎觀察。
(1)專為透明推理而打造
Magistral 針對多步驟邏輯進行微調,提高可解釋性,并以用戶的語言提供可追蹤的思維過程,不同于通用模型。
目標是從此次發布開始快速迭代模型。預期模型將持續改進。
(2)多語言靈活性
該模型在眾多語言中保持高保真推理方面表現卓越。Magistral 特別適合用英語、法語、西班牙語、德語、意大利語、阿拉伯語、俄語和簡體中文等語言進行推理。
(3)Le Chat 實現 10 倍更快的推理
通過 Le Chat 中的閃速回答,Magistral Medium 實現了比大多數競爭對手快達 10 倍的token吞吐量。這使得大規模的實時推理和用戶反饋成為可能。
(4)應用的多樣性
Magistral 適用于需要比非推理大語言模型更長思考處理和更高準確性的通用用途。從法律研究和財務預測到軟件開發和創意寫作 —— 這個模型解決了透明度和精確性至關重要的多步驟挑戰。
2、Magistral 模型的訓練方法
包括對 GRPO 算法的優化以提高訓練穩定性,以及訓練獎勵機制,用于提升數學和編程能力,同時確保模型遵循正確的格式、長度和語言使用規范。
(1) GRPO 算法的優化
論文引入了幾項修改:
- 消除KL散度:論文完全移除了KL懲罰;
- 損失標準化:通過首先對所有token和所有生成添加逐token損失,然后除以組中生成的總長度來標準化損失。
- 優勢標準化
- 放寬信任區域的上界:允許模型探索罕見但可能具有洞察力的推理步驟,防止確定性策略。
- 消除非多樣化組。所有生成都完全正確或錯誤的組具有零優勢,因此對批次損失沒有貢獻。這導致梯度更小,噪聲敏感性增加。為了解決這個問題,論文在形成訓練批次時過濾掉所有零優勢的組。
包含所有修改(用紅色突出顯示)的最終GRPO損失為:
圖片
(2)訓練獎勵機制
選擇合適的獎勵對于強化學習算法的有效運行至關重要。在訓練過程中,模型生成的內容從四個維度進行評估:格式、正確性、長度和語言一致性,我們在下文中進行描述。
格式化
對于數學和代碼問題,我們指示模型遵循特定格式,這有助于提取模型的答案:
1)標簽要求:(i) 模型響應必須以 <thinking>標簽開始,并且必須包含相應的 </thinking> 標簽。(ii) 響應中應該恰好存在一組這樣的標簽。
2)數學響應:對于數學輸出,響應必須在 </thinking>標簽后的答案部分包含用 \boxed{} 包圍的最終答案。
3)代碼響應:對于代碼輸出,響應必須在答案部分包含至少一個 markdown 代碼塊,用三個反引號格式化,后跟編程語言規范。
未能滿足任何這些條件將導致獎勵為 0,響應將不會進行進一步評分。否則,響應獲得 0.1 的獎勵并繼續評分。
正確性
如果生成的答案遵循所需的格式,論文提取模型解決方案并使用驗證器評估其正確性。
數學正確性:最終答案從解決方案中最后一個 \boxed{} 內提取,并使用基于規則的驗證器與參考答案進行比較。它將真實答案和生成的答案都進行標準化,以正確獎勵語義相同但語法不同的響應。我們利用不同解析器和 SymPy2 的組合來評估輸出并將其與原始真實答案進行比較。如果答案正確,將給予額外的 0.9 獎勵,使總獎勵達到 1.0。
代碼正確性:代碼從答案部分的第一個 markdown 代碼塊中提取。如果代碼是用 C++ 編寫的,則使用 C++20 標準編譯,超時時間為 10 秒。我們預編譯 bits/stdc++.h 標準庫頭文件,這在競技編程中常用,以加速編譯過程。我們從可用測試用例中隨機選擇 20 個測試,確保在給定響應組內使用相同的測試。然后針對這些測試執行代碼,每個測試的超時時間為 4 秒,內存限制為 300 MB。如果代碼成功通過所有測試,將給予額外的 0.9 獎勵。
長度懲罰
使用軟長度懲罰來向模型發出信號,表明最大完成長度的硬截止臨近。我們固定兩個長度 lmax 和 lcache 并計算長度懲罰為
圖片
圖片
圖片
本文轉載自??AI帝國??,作者:無影寺
