成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里深夜開源Qwen2.5-Omni,7B參數(shù)完成看、聽、說(shuō)、寫

人工智能 新聞
這是 Qwen 系列中全新的旗艦級(jí)多模態(tài)大模型,專為全面的多模式感知設(shè)計(jì),可以無(wú)縫處理包括文本、圖像、音頻和視頻的各種輸入,同時(shí)支持流式的文本生成和自然語(yǔ)音合成輸出。

3 月 27 日凌晨,阿里通義千問團(tuán)隊(duì)發(fā)布 Qwen2.5-Omni。

2025-03-27_070702.png

這是 Qwen 系列中全新的旗艦級(jí)多模態(tài)大模型,專為全面的多模式感知設(shè)計(jì),可以無(wú)縫處理包括文本、圖像、音頻和視頻的各種輸入,同時(shí)支持流式的文本生成和自然語(yǔ)音合成輸出。

image.png


從此以后,你可以像打電話或進(jìn)行視頻通話一樣與 Qwen 聊天!可以說(shuō)是「語(yǔ)音聊天 + 視頻聊天」都實(shí)現(xiàn)了。

圖片

體驗(yàn)地址:https://chat.qwen.ai/

更重要的是,團(tuán)隊(duì)人員將支持這一切的模型 Qwen2.5-Omni-7B 開源了,采用 Apache 2.0 許可證,并且發(fā)布了技術(shù)報(bào)告,分享所有細(xì)節(jié)!

現(xiàn)在,開發(fā)者和企業(yè)可免費(fèi)下載商用Qwen2.5-Omni,手機(jī)等終端智能硬件也可輕松部署運(yùn)行。

image.png


  • 論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有網(wǎng)友表示,這才是真正的 Open AI。

image.png

大家可以通過官方 demo 感受一下 Qwen2.5-Omni 真實(shí)表現(xiàn)。

Qwen2.5-Omni 模型架構(gòu)

Qwen2.5-Omni 具有以下特點(diǎn):

  • Omni 和創(chuàng)新架構(gòu):團(tuán)隊(duì)提出了 Thinker-Talker 架構(gòu),這是一個(gè)端到端的多模態(tài)模型,旨在感知包括文本、圖像、音頻和視頻在內(nèi)的多種模態(tài),同時(shí)以流式方式生成文本和自然語(yǔ)音響應(yīng)。此外,團(tuán)隊(duì)還提出了一種名為 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用于同步視頻輸入與音頻的時(shí)間戳;
  • 實(shí)時(shí)語(yǔ)音和視頻聊天:該架構(gòu)專為完全實(shí)時(shí)交互而設(shè)計(jì),支持分塊輸入和即時(shí)輸出;
  • 自然且穩(wěn)健的語(yǔ)音生成:在語(yǔ)音生成方面,Qwen2.5-Omni 超越了許多現(xiàn)有的流式和非流式替代方案,展現(xiàn)出卓越的穩(wěn)健性和自然性;
  • 多模態(tài)性能強(qiáng)勁:在與同樣大小的單模態(tài)模型進(jìn)行基準(zhǔn)測(cè)試時(shí),Qwen2.5-Omni 在所有模態(tài)上均展現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上超越了同樣大小的 Qwen2-Audio,并且達(dá)到了與 Qwen2.5-VL-7B 相當(dāng)?shù)男阅埽?/span>
  • 出色的端到端語(yǔ)音指令遵循能力:Qwen2.5-Omni 在端到端語(yǔ)音指令遵循方面的表現(xiàn)可與文本輸入的有效性相媲美,這一點(diǎn)在 MMLU 和 GSM8K 等基準(zhǔn)測(cè)試中得到了證明。

前文我們已經(jīng)提到,Qwen2.5-Omni 采用了 Thinker-Talker 架構(gòu)。

Thinker 就像大腦一樣,負(fù)責(zé)處理和理解來(lái)自文本、音頻和視頻模態(tài)的輸入,生成高級(jí)表示以及對(duì)應(yīng)的文本。

Talker 則像人類的嘴巴,以流式方式接收 Thinker 產(chǎn)生的高級(jí)表示和文本,并流暢地輸出離散的語(yǔ)音 token。

Thinker 是一個(gè) Transformer 解碼器,配備有音頻和圖像的編碼器,以便于提取信息。相比之下,Talker 被設(shè)計(jì)為一種雙軌自回歸 Transformer 解碼器架構(gòu)。

在訓(xùn)練和推理過程中,Talker 直接接收來(lái)自 Thinker 的高維表示,并共享 Thinker 的所有歷史上下文信息。因此,整個(gè)架構(gòu)作為一個(gè)統(tǒng)一的單一模型運(yùn)行,實(shí)現(xiàn)了端到端的訓(xùn)練和推理。

image.png

Qwen2.5-Omni 模型架構(gòu)

模型性能

團(tuán)隊(duì)人員對(duì) Qwen2.5-Omni 進(jìn)行了全面評(píng)估,結(jié)果表明,該模型在所有模態(tài)上的表現(xiàn)均優(yōu)于類似大小的單模態(tài)模型以及閉源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多種模態(tài)的任務(wù)中,如 OmniBench,Qwen2.5-Omni 達(dá)到了最先進(jìn)的水平。

此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni 在多個(gè)領(lǐng)域中表現(xiàn)優(yōu)異,包括語(yǔ)音識(shí)別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU, MMStar)、視頻理解(MVBench)以及語(yǔ)音生成(Seed-tts-eval 和 subjective naturalness)。

image.png

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-14 00:20:00

2025-03-27 10:04:36

阿里云通義千問多模態(tài)

2025-03-25 12:11:08

2025-01-13 10:55:53

2025-03-27 12:30:36

2024-03-18 07:01:42

2024-06-03 10:43:34

2024-11-12 14:00:00

AI編程

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-01-10 11:42:40

2025-02-24 08:10:00

2025-03-27 13:23:39

2024-08-13 15:40:00

2023-08-28 00:50:14

模型開源

2023-08-03 19:11:45

2024-08-30 15:19:22

2023-12-19 13:18:36

AI數(shù)據(jù)

2024-09-05 14:25:00

訓(xùn)練代碼

2024-03-25 08:00:00

2020-11-04 08:25:13

偶數(shù)B輪融資
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99成人| 亚洲激情在线观看 | 激情福利视频 | 久久久人成影片免费观看 | 免费一二区 | 精品美女在线观看 | 久久久久一区 | 99re在线视频 | 一区二区在线不卡 | 国产免费一区二区三区免费视频 | 亚洲精品乱码久久久久久按摩观 | 亚洲看片网站 | 亚洲品质自拍视频 | 欧美视频一区二区三区 | 干干天天 | 国产美女在线观看 | 午夜视频导航 | 在线观看亚洲欧美 | 亚洲乱码国产乱码精品精98午夜 | 天天精品在线 | 韩国久久精品 | 福利视频一区二区三区 | 黄a免费网络 | 一区视频 | 日韩精品一区二区三区中文字幕 | aaa国产大片| 国产精品久久久久久婷婷天堂 | 日韩高清中文字幕 | 精品国产鲁一鲁一区二区张丽 | 亚洲在线视频 | 高清欧美性猛交xxxx黑人猛交 | 在线看免费 | 伊人网综合 | 欧美亚洲国产一区二区三区 | 99九九久久| 国产精品一区久久久 | 日韩久久综合网 | 日韩欧美在线一区 | 国产精品毛片一区二区在线看 | 高清亚洲| 永久免费在线观看 |