月之暗面開源音頻模型Kimi-Audio，從「語音轉(zhuǎn)文字」到「讀心對話」，讓AI聽懂人類 “弦外之音”！

作者：AIGC Studio 2025-05-13 09:21:30

Kimi-Audio是一個在音頻理解、生成和對話方面表現(xiàn)卓越的開源音頻基礎(chǔ)模型。論文介紹了 Kimi-Audio 的構(gòu)建實踐，包括模型架構(gòu)、數(shù)據(jù)整理、訓練方案、推理部署和評估。

近期，Kimi在語音交互領(lǐng)域發(fā)布了Kimi-Audio模型，這是一個開源音頻基礎(chǔ)模型，在音頻理解、生成和對話方面表現(xiàn)出色。

AI讓機器不僅 “聽到” 聲音，更能 “聽懂” 語言背后的情感、意圖和語境。Kimi-Audio 的核心突破，在于構(gòu)建了一個全流程端到端的實時語音對話系統(tǒng)。能夠在一個統(tǒng)一的框架內(nèi)處理各種音頻處理任務。主要功能包括：

通用功能：處理各種任務，如自動語音識別 (ASR)、音頻問答 (AQA)、自動音頻字幕 (AAC)、語音情感識別 (SER)、聲音事件/場景分類 (SEC/ASC) 和端到端語音對話。
最先進的性能：在眾多音頻基準測試中取得 SOTA 結(jié)果（參見評估和技術(shù)報告）。
大規(guī)模預訓練：對超過 1300 萬小時的不同音頻數(shù)據(jù)（語音、音樂、聲音）和文本數(shù)據(jù)進行預訓練，實現(xiàn)強大的音頻推理和語言理解。
新穎的架構(gòu)：采用混合音頻輸入（連續(xù)聲學向量+離散語義標記）和具有并行頭的 LLM 核心來生成文本和音頻標記。
高效推理：采用基于流匹配的分塊流式去標記器，實現(xiàn)低延遲音頻生成。
開源：發(fā)布預訓練和指令微調(diào)的代碼和模型檢查點，并發(fā)布全面的評估工具包以促進社區(qū)研究和開發(fā)。

論文介紹

具體而言，我們利用 12.5Hz 音頻分詞器，設計了一種基于 LLM 的新型架構(gòu)，以連續(xù)特征作為輸入，以離散分詞作為輸出，并開發(fā)了一個基于流匹配的分塊式流式去分詞器。作者整理了一個包含超過 1300 萬小時音頻數(shù)據(jù)的預訓練數(shù)據(jù)集，涵蓋語音、聲音和音樂等多種模態(tài)，并構(gòu)建了用于構(gòu)建高質(zhì)量且多樣化的訓練后數(shù)據(jù)的流水線。Kimi-Audio 基于預訓練的 LLM 進行初始化，并通過多個精心設計的任務，在音頻和文本數(shù)據(jù)上進行持續(xù)預訓練，然后進行微調(diào)以支持各種音頻相關(guān)任務。

廣泛的評估表明，Kimi-Audio 在一系列音頻基準測試中均達到了最佳性能，包括語音識別、音頻理解、音頻問答和語音對話。

架構(gòu)概述

Kimi-Audio 由三個主要組件組成：

音頻標記器：將輸入音頻轉(zhuǎn)換為：使用矢量量化的離散語義標記（12.5Hz）。來自 Whisper 編碼器的連續(xù)聲學特征（下采樣至 12.5Hz）。
音頻 LLM：基于轉(zhuǎn)換器的模型（由預訓練的文本 LLM（如 Qwen 2.5 7B）初始化），具有處理多模態(tài)輸入的共享層，然后是并行頭，用于自回歸生成文本標記和離散音頻語義標記。
音頻解析器：使用流匹配模型和聲碼器（BigVGAN）將預測的離散語義音頻標記轉(zhuǎn)換回高保真波形，支持分塊流傳輸，并采用前瞻機制實現(xiàn)低延遲。