成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

解鎖通用聽覺人工智能!清華電子系聯合火山語音,開源全新認知導向聽覺大語言模型

人工智能 新聞
清華大學聯合字節火山語音團隊提出了一種全新的「聽覺」大語言模型——SALMONN。不僅能夠感知和理解各種類型的音頻輸入,而且還涌現出了多語言和跨模態推理等高級能力。

日前,清華大學電子工程系與火山語音團隊攜手合作,推出認知導向的開源聽覺大語言模型SALMONN (Speech Audio Language Music Open Neural Network)。

圖片

大語言模型 SALMONN

相較于僅僅支持語音輸入或非語音音頻輸入的其他大模型,SALMONN對語音、音頻事件、音樂等各類音頻輸入都具有感知和理解能力,相當于給大語言模型「加了個耳朵」,從而涌現出多語言和跨模態推理等高級能力。

(注意:本文中涌現能力是指模型訓練中沒有學習過的跨模態能力。)

具體來說,通過給Vicuna 13B大語言模型增加一個基于Whisper Encoder的通用音頻編碼器,并使用一個融合器對齊音頻和文本模態,SALMONN模型就對音頻模態具有了直接感知,不再是「缸中之腦」。

與先使用API調用「ToolFormer」,將語音或非語音音頻輸入轉為文字,再將文字輸入大語言模型的API路線相比,SALMONN可以直接從物理世界獲取知識,并對一些復雜的音頻場景涌現出完整的理解能力。

此外與傳統的語音識別、音頻字幕生成等語音和音頻處理任務相比,SALMONN利用了大語言模型從海量文本中學習得到的常識和認知能力,實現了一種認知導向的音頻感知,大幅提高了模型的通用性和任務的豐富性;另外SALMONN 能夠較為準確地聽從使用者的文本指令,甚至語音指令。

由于該模型只使用了基于文本指令的訓練數據,因此聽從語音指令也是一種跨模態的涌現能力。

Github倉庫:https://github.com/bytedance/SALMONN/

Demo鏈接:https://bytedance.github.io/SALMONN/

總體而言,目前SALMONN能夠勝任英語語音識別、英語到中文的語音翻譯、情感識別、音頻字幕生成、音樂描述等重要的語音和音頻任務,同時又涌現出多種在模型訓練中沒有專門學習過的多語言和跨模態能力,涵蓋非英語語音識別、英語到(中文以外)其他語言的語音翻譯、對語音內容的摘要和關鍵詞提取、基于音頻的故事生成、音頻問答、語音和音頻聯合推理等任務。

對此,研究團隊將上述任務依據難易程度分為三類,并一一提出了Demo進行展現,它們分別是:

- 模型訓練中學習過的任務

- 模型訓練中沒有學習過,但大語言模型能夠基于文本輸入完成的任務

- 模型訓練中沒有學習過,需要直接感知音視頻的多模態大模型才能完成的任務

第一類:模型訓練中學習過的任務

語音識別(Automatic Speech Recognition)

上述語音中的英文語句:But I was also stumbling because I couldn’t look away from these things. (中文翻譯為:我也曾跌跌撞撞,因為我無法將目光從這些東西上移開。)

音頻字幕生成(Audio Captioning)

SALMONN輸出的中文翻譯為:音效包括槍聲、爆炸聲和喊叫聲。音效質量高,混音效果好,營造出逼真、身臨其境的音頻體驗。對話清晰易懂,在激烈的戰斗場面中,角色們相互呼喊和交流。音樂也有,但沒有音效那么突出,增加了場景的整體氛圍。

音樂描述(Music Descrption)

SALMONN輸出的中文翻譯為:音樂是輕快歡快的曲調,節奏穩定。它是在鋼琴上演奏的,旋律簡單、朗朗上口。

情感識別(Emotion Recognition)

SALMONN輸出的中文翻譯為:說話人的情緒是失望的。

第二類:模型訓練中沒有學習過但大語言模型能夠基于文本輸入完成的任務

英語到其他語言的語音翻譯,是一種多語言的涌現能力

語音中的英文語句:But I was also stumbling because I couldn’t look away from these things.

SALMONN的德語輸出:Ich stolperte auch, weil ich nicht aus den Dingen heraussehen konnte. (中文翻譯為:我也因為看不清東西而跌跌撞撞。)

語音關鍵詞提取,是一種涌現能力

語音中的英文語句:He tells us that at this festive season of the year with Christmas and roast beef looming before us similes drawn from eating and its results occur most readily to the mind. (中文翻譯為:他告訴我們,在這個圣誕節和烤牛肉迫在眉睫的節日里,人們腦海中最容易浮現出從飲食及其結果中得出的比喻)

SALMONN輸出的關鍵詞:festive season(佳節)、Christmas(圣誕節)、roast beef(烤牛肉)

語音問答是一種涌現能力

語音中的英文語句:How a rocket engine works?(中文翻譯為:火箭發動機是如何工作的?)

SALMONN 輸出的中文翻譯為:火箭發動機的工作原理是在燃燒室中燃燒氫氣或煤油等燃料,產生的熱氣通過噴嘴噴出。噴嘴的形狀可以將氣體引向特定的方向,產生推力推動火箭前進。

燃料通常與液氧等氧化劑混合,發生化學反應,以熱量和壓力的形式釋放出大量能量。燃燒過程產生的熱量使燃料汽化,產生的壓力將氣體推出發動機。

燃燒過程中產生的熱氣隨后被導入噴嘴,噴嘴的形狀類似錐體。噴嘴的作用是使氣體膨脹,從而提高氣體的速度,形成高速氣體射流,產生推力。

火箭發動機產生的推力推動火箭前進,使其擺脫地球引力,在太空中飛行。火箭發動機的具體設計,包括使用的燃料、噴嘴的形狀和發動機的大小,將決定產生推力的大小和火箭飛行的具體特點。

第三類:模型訓練中沒有學習過但需要直接感知音視頻的多模態大模型才能完成的任務

基于音頻的故事生成

音頻描述:Rustling occurs, ducks quack and water splashes, followed by an adult female and adult male speaking and duck calls being blown. (中文翻譯為:發出沙沙聲,鴨子嘎嘎叫,水花四濺,隨后成年男性和成年女性說話,鴨子發出叫聲)

SALMONN輸出的故事的中文翻譯為:陽光明媚,鳥語花香,一群孩子在樹林里散步。他們正在尋寶,決心盡可能多地找到清單上的物品。

走著走著,他們聽到附近的池塘里傳來一陣奇怪的聲音。聽起來像是鴨子在嘎嘎叫,但聲音更大,也更持久。孩子們急忙跑到池塘邊去調查。

當他們走近池塘時,看到了他們從未見過的東西。一只巨大的鴨子正坐在池塘邊,大聲地叫著。這只鴨子有一輛汽車那么大,叫聲響亮,幾英里外都能聽到。

孩子們看到這只巨型鴨子都驚呆了。他們以前從未見過這樣的東西。他們慢慢靠近鴨子,盡量不驚動它。

當他們走近時,鴨子轉過身來對他們說話。「你們好,孩子們,」用低沉洪亮的聲音說。「什么風把你們吹到我的池塘來了?”」.......

帶語音指令的音頻推理

語音中的英文語句:Can you guess where I am right now?(中文翻譯為:你能猜出我現在在哪里嗎?)

SALMONN輸出的答案的中文翻譯:當然,我可以猜猜你現在在哪里。根據背景的槍聲,聽起來你可能身處戰區或危險地區。槍聲符合自動武器的聲音,如 AK-47 或 M-16。此外,背景中的爆炸聲表明,您可能正身處使用炸彈或其他爆炸裝置的地點。

在沒有更多信息的情況下,很難說得更具體,但根據槍聲和爆炸聲,你有可能身處戰區或戰亂國家。也有可能是在犯罪活動或暴力活動猖獗的地方。

希望以上內容對您有所幫助,如果您還有其他問題或需要我提供其他幫助,請告訴我。

整體來看,SALMONN 在三類不同難度的任務上都有較好表現,并涌現出驚艷的音頻理解與推理能力,成功打通了音頻與文本模態,初步展現出一定的通用聽覺人工智能。研究團隊將在近期開源 SALMONN  v1.0 模型及相關代碼,并將在未來持續更新 SALMONN,使大模型能夠更好地感知多模態物理世界,為建設開源的通用人工智能添磚加瓦。歡迎大家持續關注!

團隊介紹

清華大學電子工程系多媒體信號與智能信息處理實驗室在醫工交叉和語音處理領域有豐富的研究積淀。實驗室的張超研究小組成立于2022年,專注于多模態語音語言處理和計算認知神經科學研究。

火山語音團隊,面向字節跳動內部各業務線,提供優質的語音AI技術能力以及全棧語音產品解決方案,并通過火山引擎對外提供服務。自 2017 年成立以來,團隊專注研發行業領先的 AI 智能語音技術,不斷探索AI 與業務場景的高效結合,以實現更大的用戶價值。

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-07-31 23:46:57

人工智能語言模型感知力

2021-01-19 11:07:19

深度學習神經+符號知識圖譜

2022-06-20 11:05:58

通用人工智能機器人

2022-07-20 10:22:03

人工智能機器學習

2022-12-05 09:42:21

語音人工智能程序

2009-07-10 09:58:08

Swing控件聽覺反饋

2022-12-01 07:03:22

語音識別人工智能技術

2021-05-12 09:37:06

小米MIUI12.5

2024-01-16 10:22:23

人工智能大型語言模GPT 4

2021-11-25 08:00:00

人工智能編程語言開發

2022-01-10 08:00:43

認知智能AI

2022-11-14 15:06:16

2021-08-22 15:09:02

人工智能機器技術

2022-07-04 15:29:59

人工智能機器計算機

2022-12-05 07:17:14

人工智能語音合成

2024-01-16 10:14:25

2020-05-12 15:00:51

教育人工智能學習

2024-12-17 13:55:21

2023-07-06 10:15:09

開源語言模型AI生成式AI

2018-05-21 14:20:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一本大道久久a久久精二百 国产成人免费在线 | 中文字幕在线一区 | 久久精品一级 | 91视频免费视频 | 久久91| 久久成人一区 | 久久精品久久久久久 | 91久久精品一区二区二区 | 久久逼逼 | 欧美区在线 | 成人在线免费视频观看 | 偷拍亚洲色图 | 日韩精品视频一区二区三区 | 欧美中国少妇xxx性高请视频 | 欧美1—12sexvideos | 国产成人精品一区二区三区视频 | 一区二区精品 | 成人免费小视频 | 国产精品一级 | 一区二区在线免费观看 | 91精品国产乱码麻豆白嫩 | cao在线| 欧美精品乱码99久久影院 | 亚洲国产精品一区二区三区 | www.精品国产| 国内精品久久久久久影视8 最新黄色在线观看 | 色婷婷综合久久久中字幕精品久久 | 久久久精品网 | 一区二区电影 | 亚洲国产精品久久久久秋霞不卡 | 亚洲精品一区二区在线观看 | 国产精品一区二区视频 | 成人片免费看 | 色婷婷国产精品 | 欧美自拍第一页 | 国产一区二区三区视频免费观看 | 一区二区三区高清 | 中文字幕欧美一区 | 欧美激情在线精品一区二区三区 | 围产精品久久久久久久 | 欧美高清视频在线观看 |