成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟出招!新模型數學超GPT-4o編程勝Llama3.3,訓練新范式引熱議:midtraining

人工智能 新聞
參數量僅14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B級別大模型坐一桌。

OpenAI谷歌天天刷流量,微軟也坐不住了,推出最新小模型Phi-4

參數量僅14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B級別大模型坐一桌。

圖片

數學能力上,Phi-4在美國數學競賽AMC 10/12上超過了GPT-4o等一眾大模型,分數沖上90

圖片

編程能力也是開源模型一流,超過了70B的Llama 3.3和72B的Qwen 2.5。

圖片

更引起熱議的是,微軟在技術報告中還提出了一個新的訓練范式——midtraining

圖片

這一舉動讓Phi-4擁有了更強的長文本處理能力,窗口長度達到16K后,召回率依然保持在99%。

圖片

小模型挑戰復雜推理

在常見基準測試中,Phi-4取得了優異的文本處理和復雜推理水平:

  • 在MMLU上,Phi-4以84.8%的準確率超過了GPT-4o-mini的81.8%和Llama-3.3的86.3%;
  • 在研究生水平STEM問答GPQA上,Phi-4準確率達到56.1%,高于同尺寸模型Qwen-2.5的42.9%,甚至超過了GPT-4o的50.6%;
  • 在數學測試集MATH上,Phi-4以80.4%的準確率超過GPT-4o-mini的73%,并接近GPT-4o的74.6%;
  • 編程能力方面,Phi-4在HumanEval上以82.6%超過了其他開源模型,以及GPT-4o-mini。

在難度稍高的MMLU和HumanEval+上,Phi-4的表現也超過了其他開源模型;在ArenaHard、LiveBench和IFEval上則表現欠佳。

另外,微軟還用內部的基準PhiBench對模型能力進行了更全面的評估,結果Phi-4取得了56.2%的綜合得分,展現出在推理、知識、編程等方面的全面能力,但相比于Qwen 2.5-72B等模型,還是暴露了有待提高之處。

圖片

在Phi-4的宣傳頁中,微軟還展示了其在一個具體的數學推理題目上的表現。

Phi-4非常有條理地考慮了各種可能出現的情況,并計算出了正確答案。

圖片

除了這些常規能力,微軟團隊還專門在長文本上測試了Phi-4的表現。

在8K和16K兩種窗口長度中,研究團隊利用HELMET基準評估了Pho-4和其他模型在RAG、QA問答、長文本摘要等任務上的水平。

結果,Phi-4在多個任務上與同尺寸的Qwen 2.5-14B相當,部分指標還可與70B的Llama 3.3一決高下。

不過,Phi-4在某些任務(如RAG和文檔排序)上,仍有進一步提升的空間。

圖片

模型midtraining專攻長文本

不同于一般大模型的預訓練+后訓練的兩階段模式,微軟在兩個階段中間新加入了一個midtraining階段。

在10萬億tokens規模的預訓練完成后,Phi-4可以處理4k長度的上下文窗口,而midtraining的目的是在此基礎上進一步將窗口長度提升到16k。

研究團隊發現,天然的長上下文數據(如完整的學術論文)比人工拼接短樣本更有利于訓練長上下文能力。

圖片

因此,團隊從學術文章、書籍、代碼庫等高質量非合成文本中篩選出長度大于8K tokens的樣本作為訓練集,并且對長度超過16K tokens的樣本進行加權,以匹配目標長度。

為進一步豐富長上下文訓練數據,研究團隊專門生成了滿足大于4K長度要求的新合成數據,與真實長文本數據共同組成了midtraining階段的數據集。

最終,midtraining階段的數據包含30%新引入的長文本數據(篩選+合成)和70%預訓練階段的歷史數據,規模為2500億tokens。

同時,為了適應16K的長序列訓練,研究團隊將rope位置編碼的基頻從預訓練階段的2K擴大到250K;同時,為保證訓練穩定性,團隊將學習率降低為預訓練階段的十分之一。

最終,Phi-4在HELMET等長文本基準測試中表現出色,證明了midtraining階段的有效性。

除此之外,在后訓練階段,研究團隊還提出了一種新穎的對比學習方法——樞軸tokens搜索(PTS)

通過識別對模型輸出影響最大的關鍵tokens,并圍繞它們構造正負樣本對,PTS可以生成高信噪比的對比學習數據,顯著提升訓練效率和效果。

除了PTS生成的對比學習數據,研究團隊還引入了人類反饋對比學習(Human Feedback DPO)

他們招募了大量人員對模型輸出進行評判,并據此構造優質的正負樣本對,使得模型更加貼近人類偏好。

One More Thing

不過midtraining并不是微軟首次提出,早在7月份,OpenAI就已經開始為倫敦的midtraining團隊招人了。

圖片

論文地址:https://arxiv.org/abs/2412.08905

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-09 12:50:02

2024-05-14 11:29:15

2024-06-27 12:45:30

2025-04-08 02:26:00

2025-03-31 09:46:00

2024-09-06 13:00:29

2024-08-15 15:45:00

AI訓練

2024-11-28 15:51:19

GPT-4o微軟

2024-06-21 09:58:38

2025-05-26 08:33:00

2024-04-10 12:35:50

2024-09-06 13:31:31

2024-06-28 18:13:05

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2022-10-24 10:27:37

谷歌模型

2024-12-27 10:27:58

2023-06-09 07:29:03

模型文本document

2024-06-18 12:54:39

2025-05-26 02:15:00

2024-11-12 14:00:00

AI編程
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人亚洲一区 | 国产成人av电影 | 日本一区二区三区精品视频 | 亚洲一区有码 | 欧美中文字幕在线观看 | 国产精品久久久久久一级毛片 | 99成人在线视频 | 91婷婷韩国欧美一区二区 | 亚洲精品亚洲人成人网 | 欧美日本一区二区 | 亚洲色综合 | 性高湖久久久久久久久 | 欧美日韩综合一区 | 午夜国产一级片 | 欧洲成人| 欧美精品久久久 | 欧美国产视频一区二区 | 91天堂| 一级黄色片在线看 | 日日噜噜噜夜夜爽爽狠狠视频, | 狠狠做深爱婷婷综合一区 | 欧美一区二区三区电影 | 国产日韩欧美精品一区二区 | 国产成人精品久久 | 国产精品免费在线 | 99视频在线免费观看 | 男人的天堂亚洲 | 亚洲成人高清 | 成人在线视频免费看 | 中文字幕亚洲视频 | 亚洲国产黄色av | 一区二区三区免费网站 | 99精品视频免费在线观看 | 欧州一区 | 亚洲一级av毛片 | 激情欧美日韩一区二区 | 亚洲一区二区三区四区五区中文 | 国产精品久久久久久久岛一牛影视 | 91佛爷在线观看 | 欧美日韩一区二区三区不卡视频 | 欧美一区二区在线观看 |