微軟出招！新模型數學超GPT-4o編程勝Llama3.3，訓練新范式引熱議：midtraining

作者：量子位 2024-12-13 14:03:44

參數量僅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B級別大模型坐一桌。

OpenAI谷歌天天刷流量，微軟也坐不住了，推出最新小模型Phi-4。

參數量僅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B級別大模型坐一桌。

數學能力上，Phi-4在美國數學競賽AMC 10/12上超過了GPT-4o等一眾大模型，分數沖上90。

編程能力也是開源模型一流，超過了70B的Llama 3.3和72B的Qwen 2.5。

更引起熱議的是，微軟在技術報告中還提出了一個新的訓練范式——midtraining。

這一舉動讓Phi-4擁有了更強的長文本處理能力，窗口長度達到16K后，召回率依然保持在99%。

在常見基準測試中，Phi-4取得了優異的文本處理和復雜推理水平：

在難度稍高的MMLU和HumanEval+上，Phi-4的表現也超過了其他開源模型；在ArenaHard、LiveBench和IFEval上則表現欠佳。

另外，微軟還用內部的基準PhiBench對模型能力進行了更全面的評估，結果Phi-4取得了56.2%的綜合得分，展現出在推理、知識、編程等方面的全面能力，但相比于Qwen 2.5-72B等模型，還是暴露了有待提高之處。

在Phi-4的宣傳頁中，微軟還展示了其在一個具體的數學推理題目上的表現。

Phi-4非常有條理地考慮了各種可能出現的情況，并計算出了正確答案。

除了這些常規能力，微軟團隊還專門在長文本上測試了Phi-4的表現。

在8K和16K兩種窗口長度中，研究團隊利用HELMET基準評估了Pho-4和其他模型在RAG、QA問答、長文本摘要等任務上的水平。

結果，Phi-4在多個任務上與同尺寸的Qwen 2.5-14B相當，部分指標還可與70B的Llama 3.3一決高下。

不過，Phi-4在某些任務（如RAG和文檔排序）上，仍有進一步提升的空間。

模型midtraining專攻長文本

不同于一般大模型的預訓練+后訓練的兩階段模式，微軟在兩個階段中間新加入了一個midtraining階段。

在10萬億tokens規模的預訓練完成后，Phi-4可以處理4k長度的上下文窗口，而midtraining的目的是在此基礎上進一步將窗口長度提升到16k。

研究團隊發現，天然的長上下文數據（如完整的學術論文）比人工拼接短樣本更有利于訓練長上下文能力。

因此，團隊從學術文章、書籍、代碼庫等高質量非合成文本中篩選出長度大于8K tokens的樣本作為訓練集，并且對長度超過16K tokens的樣本進行加權，以匹配目標長度。

為進一步豐富長上下文訓練數據，研究團隊專門生成了滿足大于4K長度要求的新合成數據，與真實長文本數據共同組成了midtraining階段的數據集。

最終，midtraining階段的數據包含30%新引入的長文本數據（篩選+合成）和70%預訓練階段的歷史數據，規模為2500億tokens。

同時，為了適應16K的長序列訓練，研究團隊將rope位置編碼的基頻從預訓練階段的2K擴大到250K；同時，為保證訓練穩定性，團隊將學習率降低為預訓練階段的十分之一。

最終，Phi-4在HELMET等長文本基準測試中表現出色，證明了midtraining階段的有效性。

除此之外，在后訓練階段，研究團隊還提出了一種新穎的對比學習方法——樞軸tokens搜索（PTS）。

通過識別對模型輸出影響最大的關鍵tokens，并圍繞它們構造正負樣本對，PTS可以生成高信噪比的對比學習數據，顯著提升訓練效率和效果。

除了PTS生成的對比學習數據，研究團隊還引入了人類反饋對比學習（Human Feedback DPO）。

他們招募了大量人員對模型輸出進行評判，并據此構造優質的正負樣本對，使得模型更加貼近人類偏好。

不過midtraining并不是微軟首次提出，早在7月份，OpenAI就已經開始為倫敦的midtraining團隊招人了。

論文地址：https://arxiv.org/abs/2412.08905

責任編輯：張燕妮來源：量子位