阿里深夜開源Qwen2.5-Omni，7B參數(shù)完成看、聽、說(shuō)、寫

作者：機(jī)器之心 2025-03-27 09:40:59

人工智能新聞

這是 Qwen 系列中全新的旗艦級(jí)多模態(tài)大模型，專為全面的多模式感知設(shè)計(jì)，可以無(wú)縫處理包括文本、圖像、音頻和視頻的各種輸入，同時(shí)支持流式的文本生成和自然語(yǔ)音合成輸出。

3 月 27 日凌晨，阿里通義千問團(tuán)隊(duì)發(fā)布 Qwen2.5-Omni。

從此以后，你可以像打電話或進(jìn)行視頻通話一樣與 Qwen 聊天！可以說(shuō)是「語(yǔ)音聊天 + 視頻聊天」都實(shí)現(xiàn)了。

體驗(yàn)地址：https://chat.qwen.ai/

更重要的是，團(tuán)隊(duì)人員將支持這一切的模型 Qwen2.5-Omni-7B 開源了，采用 Apache 2.0 許可證，并且發(fā)布了技術(shù)報(bào)告，分享所有細(xì)節(jié)！

現(xiàn)在，開發(fā)者和企業(yè)可免費(fèi)下載商用Qwen2.5-Omni，手機(jī)等終端智能硬件也可輕松部署運(yùn)行。

論文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
博客地址：https://qwenlm.github.io/blog/qwen2.5-omni/
GitHub 地址：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face 地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有網(wǎng)友表示，這才是真正的 Open AI。

大家可以通過官方 demo 感受一下 Qwen2.5-Omni 真實(shí)表現(xiàn)。

Qwen2.5-Omni 模型架構(gòu)

Qwen2.5-Omni 具有以下特點(diǎn)：

Omni 和創(chuàng)新架構(gòu)：團(tuán)隊(duì)提出了 Thinker-Talker 架構(gòu)，這是一個(gè)端到端的多模態(tài)模型，旨在感知包括文本、圖像、音頻和視頻在內(nèi)的多種模態(tài)，同時(shí)以流式方式生成文本和自然語(yǔ)音響應(yīng)。此外，團(tuán)隊(duì)還提出了一種名為 TMRoPE（Time-aligned Multimodal RoPE）的新型位置嵌入，用于同步視頻輸入與音頻的時(shí)間戳；
實(shí)時(shí)語(yǔ)音和視頻聊天：該架構(gòu)專為完全實(shí)時(shí)交互而設(shè)計(jì)，支持分塊輸入和即時(shí)輸出；
自然且穩(wěn)健的語(yǔ)音生成：在語(yǔ)音生成方面，Qwen2.5-Omni 超越了許多現(xiàn)有的流式和非流式替代方案，展現(xiàn)出卓越的穩(wěn)健性和自然性；
多模態(tài)性能強(qiáng)勁：在與同樣大小的單模態(tài)模型進(jìn)行基準(zhǔn)測(cè)試時(shí)，Qwen2.5-Omni 在所有模態(tài)上均展現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上超越了同樣大小的 Qwen2-Audio，并且達(dá)到了與 Qwen2.5-VL-7B 相當(dāng)?shù)男阅埽?/span>
出色的端到端語(yǔ)音指令遵循能力：Qwen2.5-Omni 在端到端語(yǔ)音指令遵循方面的表現(xiàn)可與文本輸入的有效性相媲美，這一點(diǎn)在 MMLU 和 GSM8K 等基準(zhǔn)測(cè)試中得到了證明。

前文我們已經(jīng)提到，Qwen2.5-Omni 采用了 Thinker-Talker 架構(gòu)。

Thinker 就像大腦一樣，負(fù)責(zé)處理和理解來(lái)自文本、音頻和視頻模態(tài)的輸入，生成高級(jí)表示以及對(duì)應(yīng)的文本。

Talker 則像人類的嘴巴，以流式方式接收 Thinker 產(chǎn)生的高級(jí)表示和文本，并流暢地輸出離散的語(yǔ)音 token。

Thinker 是一個(gè) Transformer 解碼器，配備有音頻和圖像的編碼器，以便于提取信息。相比之下，Talker 被設(shè)計(jì)為一種雙軌自回歸 Transformer 解碼器架構(gòu)。

在訓(xùn)練和推理過程中，Talker 直接接收來(lái)自 Thinker 的高維表示，并共享 Thinker 的所有歷史上下文信息。因此，整個(gè)架構(gòu)作為一個(gè)統(tǒng)一的單一模型運(yùn)行，實(shí)現(xiàn)了端到端的訓(xùn)練和推理。

Qwen2.5-Omni 模型架構(gòu)

模型性能

團(tuán)隊(duì)人員對(duì) Qwen2.5-Omni 進(jìn)行了全面評(píng)估，結(jié)果表明，該模型在所有模態(tài)上的表現(xiàn)均優(yōu)于類似大小的單模態(tài)模型以及閉源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多種模態(tài)的任務(wù)中，如 OmniBench，Qwen2.5-Omni 達(dá)到了最先進(jìn)的水平。

此外，在單模態(tài)任務(wù)中，Qwen2.5-Omni 在多個(gè)領(lǐng)域中表現(xiàn)優(yōu)異，包括語(yǔ)音識(shí)別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU, MMStar）、視頻理解（MVBench）以及語(yǔ)音生成（Seed-tts-eval 和 subjective naturalness）。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型生成 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里深夜開源Qwen2.5-Omni，7B參數(shù)完成看、聽、說(shuō)、寫

Qwen2.5-Omni 模型架構(gòu)

模型性能