成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI集體“聽不懂”!MMAR基準測試揭示音頻大模型巨大短板

人工智能 新聞
這一全新基準測試MMAR來自上海交通大學、 南洋理工大學、倫敦瑪麗皇后大學、字節跳動、2077AI開源基金會等研究機構。

用AI來整理會議內容,已經是人類的常規操作。

不過,你猜怎么著?面對1000道多步驟音頻推理題時,30款AI模型竟然幾乎全軍覆沒,很多開源模型表現甚至接近瞎猜。

就連表現最好的開源模型Qwen-2.5-Omni,準確率也只有56.7%;而閉源選手Gemini 2.0 Flash則以65.6%的成績一騎絕塵,遙遙領先全場。

這一全新基準測試MMAR來自上海交通大學、 南洋理工大學、倫敦瑪麗皇后大學、字節跳動、2077AI開源基金會等研究機構。

圖片

MMAR 是什么?它有多難?

MMAR全稱是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。

簡單來說,它是一個包含1000個高質量問題的音頻理解評估基準,每個問題都要求模型具備多步驟的深度推理能力。

我們先來看個例子:

問題是:理發師能否聽懂英文?

在這段音頻中,被理發的人用英語反復強調自己想要的理發效果,另一個人將其翻譯成中文來幫助他強調,這說明理發師不能聽懂英文,需要旁人翻譯為中文。這個問題考察音頻大模型對于多說話人交互和復雜語義的理解和推理能力,屬實不易。

而這樣的例子有整整1000題,由標注者們頭腦風暴并精心標注,還通過了嚴格的審核程序。其他的例子包括:

  • “根據聲音,判斷哪次尺子伸出桌子外的長度更長?”
  • “根據石頭落井的回聲,判斷井深度?”
  • “這三段音樂的作曲家的親子關系?”
  • “有幾個人在學說中文?”
    圖片

△MMAR基準測試中的例子

這些問題覆蓋了四個層級的推理能力:

層級

簡單解釋

信號層(Signal)

聲音的基本屬性,比如頻率、波形、節奏等

感知層(Perception)

識別聲音種類、來源、方向等

語義層(Semantic)

理解音頻內容所表達的意義

文化層(Cultural)

結合文化背景、常識、風格等進行深層次解讀

而且,每個任務都需要多步推理,其中一些任務甚至需要極富挑戰性的感知技能和領域特定知識,音頻包含真實場景的語音、音樂、環境事件聲音和他們的混合,相當的有難度。

圖片

△MMAR音頻數據的語音、音樂、環境事件聲音和他們混合的類別分布

圖片

△MMAR的推理層級和任務類別分布

測試結果:AI 在“聽”方面到底怎么樣?

研究團隊一口氣測試了30款音頻相關模型,包括 LALMs(大型音頻語言模型)、LARMs(大型音頻推理模型)、OLMs(全能型多模態模型)等等。結果讓人有點哭笑不得:

  • 開源模型中,最強的是Qwen-2.5-Omni(7B),但平均準確率也僅為56.7%,這說明MMAR的難度遠超預期;
  • 而閉源模型Gemini 2.0 Flash直接飆到了65.6%,甩開其他選手一大截;
  • 更夸張的是:大部分開源模型的表現,幾乎跟瞎猜差不多

這說明了什么?

說明當前大多數開源模型,在面對復雜音頻推理任務時,還遠遠沒達到實用水平。

圖片

△泊松二項分布展示了隨機猜測下準確率的P值

更令人驚訝的是,在音樂相關的任務中,幾乎所有模型都“掉了鏈子”。這說明當前模型在識別旋律、節奏結構、作曲風格等深層次音頻信息方面仍存在巨大挑戰。

圖片

△五類模型在MMAR基準上的結果

其次,具有顯式推理能力的模型始終優于不具備顯式推理能力的模型。例如,Audio-Reasoner的表現優于Qwen2-Audio和Qwen2-Audio-Instruct,而音頻摘要+ DeepSeek-R1 的表現優于音頻摘要+ DeepSeek-V3。

圖片

△MMAR基準上的性能比較:使用噪聲替換音頻作為輸入的影響

研究團隊還做了一個“靈魂拷問”實驗——把輸入音頻換成噪聲。

結果發現,模型性能都大幅下降,證明它們確實在“聽”音頻,而不是靠文本先驗瞎猜。不過,Qwen-2.5-Omni在噪聲輸入下依然略高于隨機猜測 ,暴露出潛在的語言先驗偏差問題。

此外,研究人員測試了多種級聯模型組合(如音頻摘要+LLM推理)。

結果顯示,更換更強的音頻理解模型或推理模型都能帶來性能提升,說明感知能力和推理能力是相輔相成的。

總體來看,當前大多數開源模型在面對MMAR這樣的深度音頻推理任務時,表現仍然不盡人意。

AI 到底哪里“聽不懂”?

為了搞清楚模型失敗的原因,研究人員對提供思維鏈的Audio-Reasoner模型的錯誤進行了分類,發現主要有以下幾類:

錯誤類型

占比

舉例說明

感知錯誤(Perceptual Errors)

37%

分不清是鋼琴還是吉他、聽不出是雨聲還是鼓聲

推理錯誤(Reasoning Errors)

20%

推理鏈條斷裂、邏輯跳躍失誤

知識錯誤(Knowledge Gaps)

9%

缺乏對某種音樂流派或文化背景的理解

其他錯誤(Others)

34%

包括生成崩潰、指令誤解、最終答案與推理結果不一致等

也就是說,現在的 AI 不僅“耳朵不好使”,“腦子也不太靈光”。

總結與展望

通過MMAR的測試可得以下幾個關鍵結論:

  1. 當前開源音頻大模型在音頻推理上表現不佳,亟需數據與算法協同創新;
  2. 模型是否具備推理能力,直接影響性能表現;
  3. 閉源模型能力遠遠超過開源模型,開源社區需努力追趕;
  4. 近期的音視頻全模態大模型的音頻能力高于之前的音頻大模型。

在這個開創性項目中,各參與機構發揮了獨特的優勢和作用。來自香港科技大學和倫敦瑪麗皇后大學的音樂科技工作者對專業的音樂題目進行收集和標注;2077AI的研究員提供了數據處理與標注平臺銜接的重要保障。此外,整數智能數據工程平臺提供了專業的支持,平臺的多輪審核機制和協同標注功能為數據質量提供了強有力的保障。

研究人員希望,隨著更多研究者加入這一領域,人們在未來會看到真正“聽得懂”的AI:不僅能聽清你在說什么,還能聽出你在想什么。

文章: https://arxiv.org/abs/2505.13032

代碼(GitHub):https://github.com/ddlBoJack/

MMAR數據集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-04-01 08:00:00

AI模型

2025-04-14 00:10:00

人工智能AIAI 模型

2025-05-26 08:33:00

2025-05-28 10:31:13

2025-05-23 08:47:00

2025-05-21 08:47:00

2025-05-30 03:10:00

AISeePhys多模態短板

2023-11-07 07:00:37

2024-04-08 13:29:52

2023-10-28 13:29:27

2023-01-20 17:53:37

云原生K8sRancher

2023-07-05 09:57:11

2013-05-07 09:47:30

測試MySQLMySQL測試

2011-04-12 12:53:17

2024-04-15 13:51:03

模型LLMLLMs

2025-06-24 09:05:00

AI模型訓練

2024-09-29 13:10:08

2013-10-31 10:12:23

信息泄露防護溢信科技防泄密

2025-05-06 15:32:23

模型AI測試
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久99精品久久久久蜜桃tv | 污污免费网站 | 99re视频在线 | 国内激情av片 | 中文字幕乱码一区二区三区 | 久久91av| 亚洲精品在线播放 | 国产午夜精品一区二区三区嫩草 | 欧美激情一区二区三区 | 免费爱爱视频 | 久久精品国产久精国产 | 日韩欧美一区二区三区免费观看 | 91视视频在线观看入口直接观看 | 男女视频在线观看 | 成人1区2区| 欧美在线a | 成人av一区| 婷婷久久综合 | 亚洲欧美中文日韩在线v日本 | 福利视频亚洲 | 能看的av| 一区二区三区四区在线视频 | 国产女人第一次做爰毛片 | 精品videossex高潮汇编 | 成人高清网站 | chengrenzaixian| 一区影视| 婷婷中文字幕 | 羞羞视频在线观免费观看 | 99精品福利视频 | 天天射色综合 | 国产免费一区 | www日本在线播放 | 日韩av大片免费看 | 巨大荫蒂视频欧美另类大 | 欧美6一10sex性hd | 2一3sex性hd| 成人性视频免费网站 | 在线看中文字幕 | 亚洲一区二区久久久 | 日韩视频观看 |