遷移DeepSeek-R1同款算法，小米讓7B模型登頂音頻理解推斷MMAU榜單

作者：量子位 2025-03-17 12:13:26

MMAU是一個由一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本構(gòu)成的評測基準，難度非常高，人類專家的成績?yōu)?2.2%。

7B小模型+3.8萬條訓練數(shù)據(jù)，就能讓音頻理解和推斷評測基準MMAU榜單王座易主？

受到DeepSeek-R1中強化學習算法的啟發(fā)，小米大模型團隊對阿里的Qwen2-Audio-7B模型進行了微調(diào)。

結(jié)果模型在MMAU上的準確率從49.2%提升到了64.5%（漲幅31%），比以前霸榜的GPT-4o還高出近10個百分點。

MMAU是一個由一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本構(gòu)成的評測基準，難度非常高，人類專家的成績?yōu)?2.2%。

來自阿里的Qwen2-Audio-7B模型在此評測集上的準確率為49.2%，經(jīng)小米大模型團隊用清華大學發(fā)布的AVQA數(shù)據(jù)集，使用SFT微調(diào)后提升到了51.8%。

這樣的提升并不明顯，而當小米團隊選擇改用DeepSeek-R1的GRPO算法時，發(fā)現(xiàn)獲得了巨大的性能提升，一舉達到了MMAU的新SOTA。

目前，小米大模型團隊已經(jīng)把訓練代碼、模型參數(shù)開源，并提供了技術(shù)報告、在線Demo。

7B小模型拿下MMAU榜單SOTA

如前所述，小米大模型團隊通過SFT，使用清華AVQA數(shù)據(jù)集對選擇了來自阿里的Qwen2-Audio-7B進行了微調(diào)，成績提升了2.6個百分點。

直到DeepSeek-R1的發(fā)布，為小米在該項任務上的研究帶來了啟發(fā)。

DeepSeek-R1的Group Relative Policy Optimization（GRPO）方法，讓模型僅通過”試錯-獎勵”機制就能使自主進化，涌現(xiàn)出類似人類的反思、多步驗證等推理能力。

在同一時間，卡內(nèi)基梅隆大學發(fā)布的預印本論文（arxiv：2503.01067），通過精巧的實驗得出了一個有趣的論斷：

當任務存在明顯的生成-驗證差距（Generation-Verification Gap），即任務生成結(jié)果的難度遠大于驗證結(jié)果正確性的難度時，強化學習比起有監(jiān)督微調(diào)具有獨特優(yōu)勢。

而AQA任務，恰好是完美的生成-驗證差距顯著的任務。

離線微調(diào)方法，如SFT，有點像背題庫，你只能根據(jù)已有的題目和答案訓練，但遇到新題可能不會做；

而強化學習方法，如GRPO，像老師在要求你多想幾個答案，然后老師告訴你哪一個答案好，讓你主動思考，激發(fā)出自身的能力，而不是被“填鴨式”教學。

當然，如果訓練量足夠，比如有學生愿意花很多年的時間來死記硬背題庫，也許最終也能達到不錯的效果，但效率太低，浪費太多時間。

而主動思考，更容易快速地達到舉一反三的效果。強化學習的實時反饋可能會幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域，而離線方法需要遍歷整個可能性空間，效率要低得多。

基于上述洞察，小米嘗試將DeepSeek-R1的GRPO算法遷移到Qwen2-Audio-7B模型上。

令人驚喜的是，在僅使用AVQA的3.8萬條訓練樣本的情況下，強化學習微調(diào)后的模型在MMAU評測集上實現(xiàn)了64.5%的準確率，這一成績比目前榜單上第一名的商業(yè)閉源模型GPT-4o有近10個百分點的優(yōu)勢。

有趣的是，如果在訓練中強制要求模型輸出包含thinking標簽的推理過程時，準確率反而下降至61.1%。這說明顯式的思維鏈結(jié)果輸出可能并不利于模型的訓練。

小米大模型團隊的實驗揭示了幾個和傳統(tǒng)認知不同的結(jié)論：

關(guān)于微調(diào)方法：強化學習在3.8萬條數(shù)據(jù)集上的表現(xiàn)，顯著超過監(jiān)督學習在57萬條數(shù)據(jù)集上的結(jié)果；
關(guān)于參數(shù)規(guī)模：相比千億級模型，7B參數(shù)的模型通過強化學習也可展現(xiàn)強推理能力；
關(guān)于隱式推理：顯式思維鏈輸出反而成為性能瓶頸。

盡管當前準確率已突破64%，但距離人類專家82%的水平仍有差距。

小米大模型團隊表示，在當前的實驗中，強化學習策略還是比較粗糙，訓練過程對思維鏈的引導并不充分，我們會在后續(xù)做進一步探索。

此次實驗驗證了強化學習在音頻理解和判斷領(lǐng)域的獨特價值，也為后續(xù)研究打開了一扇新的大門。

小米團隊期待，當機器不僅能“聽見”聲音，還能“聽懂”聲音背后的因果邏輯時，真正的智能聽覺時代將會來臨。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）評測集由美國馬里蘭大學和Adobe的研究人員于去年聯(lián)合提出，是音頻理解和推斷能力的量化標尺。

它通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本，結(jié)合人類專家標注的問答對，測試模型在27種技能，如跨場景推理、專業(yè)知識等應用上的表現(xiàn)，期望模型達到接近人類專家的邏輯分析水平。

在大模型時代，人們已經(jīng)不滿足于機器僅僅識別說話的內(nèi)容、聲音的種類，更期望機器具備復雜的理解和判斷能力，MMAU衡量的就是這種能力。

這是一個很難的評測集，作為基準上限，人類專家在MMAU上的準確率為82.23%。

目前MMAU官網(wǎng)榜單上表現(xiàn)最好的模型是GPT-4o，準確率為57.3%。緊隨其后的是谷歌的Gemini 2.0 Flash，準確率為55.6%。

技術(shù)報告：https://arxiv.org/abs/2503.11197交互Demo：http://120.48.108.147:7860/

責任編輯：張燕妮來源：量子位