「交交」媲美GPT-4o！上海交大推出口語對話情感大模型，首個純學術界自研！

作者：機器之心 2025-04-16 08:40:00

“交交” 由上海交通大學聽覺認知與計算聲學實驗室傾力打造，它不僅是一個智能語音助手，更是一個多說話人、多語言、多角色、多情感的全能對話伙伴。

智能語音交互領域，學術研究也能如此酷炫。全球首個純學術界自研的支持多人實時口語對話的語音情感大模型 ——“交交”，正式推出！

核心亮點

上海交通大學此次推出的 “交交” 口語對話情感大模型，除了在對話上下文內容上的強大理解和知識問答能力，還同時具備多人對話與身份辨識，多語種和方言感知，角色切換與實時模仿，情感實時理解和表達等多項能力。這在目前已知發布的語音對話大模型中，尚屬首次。

1. 多人對話，無縫切換

無論是家庭聚會、團隊會議，還是朋友閑聊，“交交” 都能同時與多位用戶進行自然流暢的對話。它能精準識別每個人身份，各自的發言內容，并給出個性化的回應。還能準確地進行總結，讓對話更加生動高效。

視頻 1：上海交通大學校慶主題對話示例

視頻 2：會議場景 5 人多輪對話示例

2. 語通五洲，方言無礙

“交交” 現已支持漢語、英語、日語和法語四大主流語言，讓您無論身處何地都能用最熟悉的語言與模型進行互動。不僅如此，“交交” 具備跨語言回復能力，無論提問和回復采用同一種語言還是不同語言，都能輕松打破溝通壁壘，實現無縫交流。

針對中文，“交交” 進行了特殊優化，擁有強大的中文方言識別與理解能力。不論是四川話、山東話，還是其他地方特色方言，均可精準捕捉語意，讓對話更加親切自然，貼近您的生活語言習慣。

視頻 3：中英日法對話示例

視頻 4：四川話、山東話對話示例

3. 角色百變，情感豐富

“交交” 不僅能回答問題，還能根據對話內容和場景理解用戶的情緒，同時生成富有情感的回應。無論是幽默調侃、暖心安慰，還是專業建議，它都能恰到好處地表達。“交交” 不僅能模仿多個角色的聲音，還能實時學習并模仿用戶本人的聲音。無論是角色扮演、故事講述，還是個性化互動，它都能輕松駕馭。

視頻 5：音色實時克隆與角色扮演示例

視頻 6：情感理解與表達示例

視頻 7：豐富情感表達示例

4. 知識問答，無所不知

“交交” 不僅是一個對話伙伴，更是一個知識寶庫。無論是古詩詞背誦、科學原理講解，還是文學名著解讀，它都能信手拈來。結合超長上下文理解能力，無論是小學生的學習輔導，還是高中生的知識擴展，甚至是研究生的科研探索，交交都能滿足您的求知欲。

視頻 8：常見知識問答示例

視頻 9：唐代歷史主題多輪問答示例

技術突破

圖 1： “交交” 口語對話情感大模型技術框架

1. 端到端語音對話

采用魯棒的音頻編碼器，具有良好的抗噪能力和多人理解能力的同時，將音頻輸入流式編碼器得到離散序列，并對齊到文本序列空間。無需大規模高質量數據微調，即可最大限度保持和利用文本大模型的基礎泛化能力做到實時知識問答。

2. 多語言理解與生成

基于創新的跨模態對齊機制，將多語言語音信號與對應文本在特征空間實現精準映射，同時通過隱式表征學習保留語言特異性信息，結合深度語言模型的上下文建模能力，實現跨語言場景下的無縫切換與高效語義理解。

3. 多人對話建模

我們通過構造多人對話數據，模擬家庭聚會、團隊會議等真實場景，增強模型的對話處理能力。利用端到端模型融合上下文信息，生成個性化的響應和總結，實現自然且連貫的多方互動。

4. 情感理解與表達

基于上下文信息，利用思維鏈技術生成符合對話場景的情感全局表征，用于生動的情感語音回復生成，提升對話交流的真實感。

5. 實時音色克隆與切換

提供高保真聲音模仿技術，通過思維鏈技術進行控制信號推理，從而支持多角色語音扮演風格以及與用戶自身聲音之間的實時無感切換。

6. 靈活拓展

強大的對齊策略，支持文本與音頻模態的任意方式拼接融合，不僅顯著提升了多模態建模的靈活性，還為集成大規模文本大模型中的多種增強機制（如聯網搜索、RAG 檢索增強生成等）提供了統一且可擴展的接口。

基準測試

在語音對話大模型的賽道上，性能指標是衡量模型實力的關鍵。在相關測試中，“交交” 展現出卓越的表現，全面對標業內主流模型，部分指標甚至已實現逼近甚至超越，充分驗證了其在語音理解與交互領域的強大潛力。

1. 通用性能測試：音頻理解 + LLM 能力雙重突破

隨著大模型時代的到來，語音理解標準測試集 VoiceBench 為我們提供了一個全面評估語音對話大模型性能的重要平臺。基于 VoiceBench 英文基準測試，我們對多款主流語音模型進行了全方位的評測，涵蓋開放域問答、多選 QA、指令遵循等多個關鍵任務。

在整體評測中，“交交” 獲得了 79.05 的平均分，僅次于 OpenAI 發布的 GPT-4o 模型。與業內領先的 GPT-4o-Audio 相比，我們的模型差距縮小到僅 8%，實現了從傳統模式向端到端語音交互的重大突破。

針對音頻輸入的特殊性，我們優化算法，有效克服語義模糊問題，相較于其他端到端語音大模型，“交交” 顯著提升復雜任務表現（如指令跟隨，知識問答）等。使用同規模參數量與 Qwen2.5-7B 文本指令模型的差距大幅縮小，標志著我們在端到端語音交互理解模塊達到和文本相近的能力！

評測結果顯示，在通用知識、指令跟隨、復雜問題理解、人工智能安全層面，“交交” 都展現了極強的競爭力，不僅全面對標當前主流 SOTA 模型，還在多個關鍵任務上實現超越.

2. 多語言測試：中英日法全面覆蓋

在 VoiceBench 的中英日法基準測試中，我們的模型展現了極強的多語言處理能力，尤其是在中文、日文、法文上的表現均顯著優于 Qwen2-Audio。我們的模型不僅支持多語言，還在不同語言環境下保持了穩定的高性能表現，真正實現了 "多語言，零差異"！

3. 真機中文實測：無懼設備場景難題，多領域表現優異

為了更全面地評估模型在實際場景中的表現，我們用豐富的設備錄制了中文真實數據集，涵蓋健康、人際關系、小學數學、生活常識、科學常識等多個領域知識的單輪問答，確保數據的復雜性、多樣性。測試結果表明，我們的模型不僅在通用任務上表現優異，還在垂直領域展現了強大的專業能力。

4. 語義理解基準測試：衡量語音理解的基石

我們對 “交交” 在中英文語音識別、多語種語音識別（英語、漢語、法語、日語）及中英互譯任務上的表現進行了全面評估，并與多款業界領先模型進行了對比，包括 Whisper-large-v3、Qwen2.5-Omni 與 Qwen2-Audio。

4.1 語音識別任務

在英文（Librispeech）、中文（WenetSpeech）以及中英日法多語種（CommonVoice）的測試集中，“交交” 整體性能優異，在英文和多語種識別中表現尤為突出，均已達到和目前 SOTA 相近的性能。
尤其在 CommonVoice 測試集中的多語言場景下，錯誤率顯著低于 Whisper 和 Qwen 系列模型，展現出更強的語音理解與跨語言泛化能力。

4.2 中英互譯任務

在中→英、英→中方向的語音翻譯任務中，“交交” BLEU 值領先，尤其是對于英翻中，優于 Qwen2 系列模型，顯示出良好的語義把握和翻譯一致性。

“交交” 在多語言理解與翻譯任務中表現出色，彰顯了我們在傳統語音理解任務上的出色實力。

5. 延遲表現對比

在語音對話大模型的實際應用中，對話延遲是影響用戶體驗的關鍵因素之一。為了驗證我們的模型在真實場景下的表現，我們使用同一款手機，在同一公用網絡環境下，對我們的模型與 GPT-4o、通義千問、喜馬拉雅、階躍星辰等主流 App 的最新版本進行了延遲測試。測試結果顯示，我們的模型在延遲表現上展現了顯著的競爭力。

視頻 10：語音對話大模型回復延遲測試實錄

圖 2：語音對話大模型回復延遲對比圖

團隊介紹

“交交” 的研發團隊來自上海交通大學計算機學院聽覺認知與計算聲學實驗室（SJTU Auditory Cognition and Computational Acoustics Lab，AudioCC Lab），該實驗室由語音對話和聽覺處理領域知名學者錢彥旻教授領導，專注于完整的聽覺人工智能與計算聲學領域的前沿研究。

團隊集結了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團隊，在語音、音頻、音樂及自然聲信號處理等領域積累了豐富的技術經驗。實驗室依托國家重點項目及企業合作支持，擁有數百塊先進 GPU 計算資源，致力于解決產業級技術難題。

近年來，團隊在國際頂級期刊和會議上發表了數百項學術成果，并在多項國際評測中斬獲冠軍。團隊成員全面發展，畢業生均進入國內外頂級企業和研究機構，持續推動人工智能技術的創新與應用。

“交交” 項目團隊合影，從左起：孫海洋，張樂瑩，樂辰陽，錢彥旻，龔勛，李晨達，韓冰，王巍。

“交交” 項目團隊合影，從左起：龔勛，樂辰陽，韓冰，李晨達，王巍，錢彥旻，孫海洋，張樂瑩。

“交交” 項目團隊合影，從左起：張樂瑩，龔勛，王巍，李晨達，錢彥旻，韓冰，孫海洋，樂辰陽。

未來已來，對話無限可能！“交交” 不僅是語音助手，更是您的智能對話伙伴、知識導師和娛樂伙伴。它重新定義了人機交互的方式，讓對話更加自然、智能、有趣。“交交” 的誕生，展現了在大模型時代，學術界在科技創新中依然具有無限的潛力。上海交通大學聽覺認知與計算聲學實驗室用實力證明，學術研究不僅能推動科技進步，更能直接服務于社會，為人類生活帶來便利與樂趣。

責任編輯：張燕妮來源：機器之心

模型智能語音

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「交交」媲美GPT-4o！上海交大推出口語對話情感大模型，首個純學術界自研！

核心亮點

技術突破

基準測試

團隊介紹