AI集體“聽不懂”!MMAR基準測試揭示音頻大模型巨大短板
用AI來整理會議內容,已經是人類的常規操作。
不過,你猜怎么著?面對1000道多步驟音頻推理題時,30款AI模型竟然幾乎全軍覆沒,很多開源模型表現甚至接近瞎猜。
就連表現最好的開源模型Qwen-2.5-Omni,準確率也只有56.7%;而閉源選手Gemini 2.0 Flash則以65.6%的成績一騎絕塵,遙遙領先全場。
這一全新基準測試MMAR來自上海交通大學、 南洋理工大學、倫敦瑪麗皇后大學、字節跳動、2077AI開源基金會等研究機構。
MMAR 是什么?它有多難?
MMAR全稱是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。
簡單來說,它是一個包含1000個高質量問題的音頻理解評估基準,每個問題都要求模型具備多步驟的深度推理能力。
我們先來看個例子:
問題是:理發師能否聽懂英文?
在這段音頻中,被理發的人用英語反復強調自己想要的理發效果,另一個人將其翻譯成中文來幫助他強調,這說明理發師不能聽懂英文,需要旁人翻譯為中文。這個問題考察音頻大模型對于多說話人交互和復雜語義的理解和推理能力,屬實不易。
而這樣的例子有整整1000題,由標注者們頭腦風暴并精心標注,還通過了嚴格的審核程序。其他的例子包括:
- “根據聲音,判斷哪次尺子伸出桌子外的長度更長?”
- “根據石頭落井的回聲,判斷井深度?”
- “這三段音樂的作曲家的親子關系?”
- “有幾個人在學說中文?”
△MMAR基準測試中的例子
這些問題覆蓋了四個層級的推理能力:
層級 | 簡單解釋 |
信號層(Signal) | 聲音的基本屬性,比如頻率、波形、節奏等 |
感知層(Perception) | 識別聲音種類、來源、方向等 |
語義層(Semantic) | 理解音頻內容所表達的意義 |
文化層(Cultural) | 結合文化背景、常識、風格等進行深層次解讀 |
而且,每個任務都需要多步推理,其中一些任務甚至需要極富挑戰性的感知技能和領域特定知識,音頻包含真實場景的語音、音樂、環境事件聲音和他們的混合,相當的有難度。
△MMAR音頻數據的語音、音樂、環境事件聲音和他們混合的類別分布
△MMAR的推理層級和任務類別分布
測試結果:AI 在“聽”方面到底怎么樣?
研究團隊一口氣測試了30款音頻相關模型,包括 LALMs(大型音頻語言模型)、LARMs(大型音頻推理模型)、OLMs(全能型多模態模型)等等。結果讓人有點哭笑不得:
- 開源模型中,最強的是Qwen-2.5-Omni(7B),但平均準確率也僅為56.7%,這說明MMAR的難度遠超預期;
- 而閉源模型Gemini 2.0 Flash直接飆到了65.6%,甩開其他選手一大截;
- 更夸張的是:大部分開源模型的表現,幾乎跟瞎猜差不多。
這說明了什么?
說明當前大多數開源模型,在面對復雜音頻推理任務時,還遠遠沒達到實用水平。
△泊松二項分布展示了隨機猜測下準確率的P值
更令人驚訝的是,在音樂相關的任務中,幾乎所有模型都“掉了鏈子”。這說明當前模型在識別旋律、節奏結構、作曲風格等深層次音頻信息方面仍存在巨大挑戰。
△五類模型在MMAR基準上的結果
其次,具有顯式推理能力的模型始終優于不具備顯式推理能力的模型。例如,Audio-Reasoner的表現優于Qwen2-Audio和Qwen2-Audio-Instruct,而音頻摘要+ DeepSeek-R1 的表現優于音頻摘要+ DeepSeek-V3。
△MMAR基準上的性能比較:使用噪聲替換音頻作為輸入的影響
研究團隊還做了一個“靈魂拷問”實驗——把輸入音頻換成噪聲。
結果發現,模型性能都大幅下降,證明它們確實在“聽”音頻,而不是靠文本先驗瞎猜。不過,Qwen-2.5-Omni在噪聲輸入下依然略高于隨機猜測 ,暴露出潛在的語言先驗偏差問題。
此外,研究人員測試了多種級聯模型組合(如音頻摘要+LLM推理)。
結果顯示,更換更強的音頻理解模型或推理模型都能帶來性能提升,說明感知能力和推理能力是相輔相成的。
總體來看,當前大多數開源模型在面對MMAR這樣的深度音頻推理任務時,表現仍然不盡人意。
AI 到底哪里“聽不懂”?
為了搞清楚模型失敗的原因,研究人員對提供思維鏈的Audio-Reasoner模型的錯誤進行了分類,發現主要有以下幾類:
錯誤類型 | 占比 | 舉例說明 |
感知錯誤(Perceptual Errors) | 37% | 分不清是鋼琴還是吉他、聽不出是雨聲還是鼓聲 |
推理錯誤(Reasoning Errors) | 20% | 推理鏈條斷裂、邏輯跳躍失誤 |
知識錯誤(Knowledge Gaps) | 9% | 缺乏對某種音樂流派或文化背景的理解 |
其他錯誤(Others) | 34% | 包括生成崩潰、指令誤解、最終答案與推理結果不一致等 |
也就是說,現在的 AI 不僅“耳朵不好使”,“腦子也不太靈光”。
總結與展望
通過MMAR的測試可得以下幾個關鍵結論:
- 當前開源音頻大模型在音頻推理上表現不佳,亟需數據與算法協同創新;
- 模型是否具備推理能力,直接影響性能表現;
- 閉源模型能力遠遠超過開源模型,開源社區需努力追趕;
- 近期的音視頻全模態大模型的音頻能力高于之前的音頻大模型。
在這個開創性項目中,各參與機構發揮了獨特的優勢和作用。來自香港科技大學和倫敦瑪麗皇后大學的音樂科技工作者對專業的音樂題目進行收集和標注;2077AI的研究員提供了數據處理與標注平臺銜接的重要保障。此外,整數智能數據工程平臺提供了專業的支持,平臺的多輪審核機制和協同標注功能為數據質量提供了強有力的保障。
研究人員希望,隨著更多研究者加入這一領域,人們在未來會看到真正“聽得懂”的AI:不僅能聽清你在說什么,還能聽出你在想什么。
文章: https://arxiv.org/abs/2505.13032
代碼(GitHub):https://github.com/ddlBoJack/
MMAR數據集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR