成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

登頂新SOTA!阿里新開源語音模型Qwen2-Audio ,實測優(yōu)于 Gemini-1.5-pro,網(wǎng)友:離GPT-4o只差一步

原創(chuàng) 精選
人工智能
很妙的是,在Qwen2-Audio支持的語音聊天(但沒有音頻輸出)和音頻分析這兩種交互模式之間,模型可以自主判斷,并在這兩種模式之間智能地切換,無需系統(tǒng)提示。

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

SOTA水準(zhǔn)的Qwen2家族又迎來了新成員!

阿里云發(fā)布并開源語音模型Qwen2-Audio。

GitHub:

https://github.com/QwenLM/Qwen2-Audio

論文:

https://arxiv.org/pdf/2407.10759

作為大規(guī)模的音頻-語言模型,Qwen2-Audio能夠接受各種音頻信號輸入,并執(zhí)行音頻分析或根據(jù)語音指令直接進行文字響應(yīng)。

很妙的是,在Qwen2-Audio支持的語音聊天(但沒有音頻輸出)和音頻分析這兩種交互模式之間,模型可以自主判斷,并在這兩種模式之間智能地切換,無需系統(tǒng)提示。

同樣讓人驚喜的是,Qwen2-Audio模型具備分析音頻情緒的能力。當(dāng)用戶對模型說,自己馬上就要考試,總是睡不著覺的時候。Qwen2-Audio會識別用戶的焦慮情緒,并給予可行的建議。

圖片圖片

1.Qwen2-Audio的兩種模式:音頻分析和語音聊天

Qwen2-Audio支持兩種截然不同的模式:音頻分析和語音聊天。

這兩種模式通過其功能區(qū)分,但模型會自動判斷,用戶無需感知和進行提示。

在音頻分析模式中,用戶可以利用Qwen2-Audio分析各種類型的音頻,包括語音、聲音、音樂或各種混合音頻形式。命令可以通過音頻或文本發(fā)出,Qwen2-Audio將自動識別音頻中的命令部分。

如下圖所示,Qwen2-Audio相應(yīng)用戶語音發(fā)出的翻譯命令,通過文字相應(yīng)完成了該任務(wù)。

圖片圖片

而在語音聊天模式中,用戶可以與Qwen2-Audio進行交互,就像它是一個會話代理一樣,進行不受限制的對話。

音頻交互是可用的,用戶可以隨時選擇切換到文本交互。例如,如果用戶輸入一個音頻片段,其中初始部分是敲擊鍵盤的聲音,隨后用戶用口語問“這是什么聲音?”,Qwen2-Audio預(yù)計將直接回應(yīng)“這是鍵盤的聲音?!?/p>

即使在較為嘈雜的環(huán)境,例如用戶一邊聽歌,一邊發(fā)出指令,讓模型提取出歌詞內(nèi)容。Qwen2-Audio也能有較好的表現(xiàn)。

圖片圖片

從論文中看,Qwen2-Audio在沒有特定任務(wù)微調(diào)的情況下,超越了之前的大型音頻-語言模型(LALMs),涵蓋了多種任務(wù)。

圖片圖片

2.Qwen2-Audio是如何煉成的?

與Qwen-Audio不同的是,Qwen2-Audio的音頻編碼器基于Whisperlarge-v3模型初始化,負責(zé)將音頻信號轉(zhuǎn)換為模型可以理解的表示。

Qwen2-Audio使用了Qwen-7B作為其基礎(chǔ)組件,模型總參數(shù)量為82億。

在訓(xùn)練素材上,Qwen2-Audio使用了多個數(shù)據(jù)集。

在對音頻數(shù)據(jù)進行預(yù)處理的階段,音頻被重新采樣到16 kHz的頻率,使用25ms的窗口大小和10ms的跳躍大小將原始波形轉(zhuǎn)換為128通道的mel-頻譜圖。

此外,還加入了一個步幅為2的池化層,以減少音頻表示的長度。最終,編碼器輸出的每一幀近似對應(yīng)于原始音頻信號的40 ms段。

整個Qwen2-Audio分為三個階段:

  • 第一階段:多任務(wù)預(yù)訓(xùn)練,使用自然語言提示和大規(guī)模數(shù)據(jù)集進行預(yù)訓(xùn)練。
  • 第二階段:監(jiān)督微調(diào),通過高質(zhì)量的SFT數(shù)據(jù)集進行微調(diào),提高模型對人類指令的理解和響應(yīng)能力。
  • 第三階段:直接偏好優(yōu)化,通過DPO進一步優(yōu)化模型,使其輸出更符合人類的偏好。

3.寫在最后

Qwen2-Audio雖然很優(yōu)秀,但遺憾在沒有涉及語音輸出。而無論是語音助手、情感陪伴還是更遠的具身智能,都迫切需要點亮這棵技能樹。

圖片圖片

Sora的橫空出世,已經(jīng)肉眼可見地催熟了文生視頻的模型技術(shù)。

下一個值得關(guān)注的模態(tài),似乎正瞄準(zhǔn)了GPT-4o,瞄準(zhǔn)了語音交互。

根據(jù)專家預(yù)測,AI語音交互技術(shù)將在今年年底發(fā)展到基本成熟。

快手憑借可靈獲得了一片叫好,那么,語音界令我們驚艷的國產(chǎn)模型,又將花落誰家?

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-01-22 16:57:32

字節(jié)跳動豆包大模型

2024-08-02 14:58:00

2024-08-30 14:35:00

2024-08-09 12:50:02

2024-11-12 14:00:00

AI編程

2024-06-11 07:03:00

大模型開源Qwen2

2024-12-26 07:10:00

2024-05-20 08:20:00

OpenAI模型

2024-09-06 13:00:29

2025-06-06 14:17:11

模型訓(xùn)練AI

2024-05-15 17:34:15

2024-08-14 12:54:46

2025-03-27 12:30:36

2024-10-17 13:30:00

2024-05-14 11:29:15

2024-08-02 13:14:51

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-05-21 12:23:17

2025-02-17 09:35:00

ChatGPT模型AI

2024-07-08 13:11:39

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩欧美在线视频播放 | 亚洲国产专区 | 久久99精品久久久久久 | 国产一区二区三区久久久久久久久 | 福利一区二区在线 | 久久99久久99 | 在线欧美亚洲 | 国产精品毛片久久久久久久 | 成人免费视频久久 | 日韩av啪啪网站大全免费观看 | 欧美一区二区三区高清视频 | 国产日产精品一区二区三区四区 | 国产乱码精品一区二区三区五月婷 | 成人免费视频网站在线看 | 欧美日韩视频在线播放 | 国产成人99 | 国产在线一区二区三区 | 在线看片国产精品 | 成人啊啊啊 | 精品1区 | 色久电影 | 成人黄色电影免费 | 中文字幕在线观看av | 日韩免费视频一区二区 | 久久大陆 | 精品久久久久久亚洲精品 | 中文字幕在线一区二区三区 | 欧美日韩久久久 | 日本a v在线播放 | 精品一区二区在线视频 | 久久精品视频网站 | 婷婷久久综合 | 欧美999| 久久精品视频一区二区 | 国产精品777一区二区 | 精品欧美一区免费观看α√ | 岛国毛片 | 中文字幕97 | 国产精品色av | www.日本国产 | 国产精品无码久久久久 |