別只盯著Suno了,騰訊端出的這盤“王炸”可能要改變游戲規(guī)則
當(dāng)大家還在為 Suno 和 Udio 生成的以假亂真的旋律驚嘆時,牌桌上的一個“老玩家”悄無聲息地扔出了一對王炸。
是的,我說的就是騰訊 AI Lab。他們這次拿出的開源音樂大模型 SongGeneration,給我的感覺就像在平靜的湖面投下了一顆深水炸彈。它不僅技術(shù)上硬核,而且“開源”這兩個字,直接把格局拉滿了。
作為一個天天泡在各種模型和代碼里的人,我可以負(fù)責(zé)任地說,這不僅僅是一個新玩具,更像是一份宣言,一份要把音樂AIGC門檻徹底打下來的宣言。
一上來就解決“老大難”:音質(zhì)、樂感和速度
玩過AI音樂生成的朋友都懂,最頭疼的是什么?
要么是生成的曲子聽著像上個世紀(jì)的MIDI音效,音質(zhì)感人;要么是旋律東拼西湊,毫無“音樂性”可言;要么就是你輸入“一首悲傷的歌”,它給你生成個二人轉(zhuǎn),驢唇不對馬嘴。哦,對了,還有那動輒一杯咖啡才出結(jié)果的龜速。
SongGeneration 這次的目標(biāo)非常明確,就是沖著這三大痛點(diǎn)來的。他們用的 LLM-DiT 融合架構(gòu),簡單來說,就是讓擅長理解人類語言的大模型(LLM)去當(dāng)“制作人”,指揮專業(yè)的“音頻渲染師”(DiT架構(gòu)),在保證出活兒快的同時,把音質(zhì)和樂感死死拿捏住。
聽聽這“黑話”:三秒克隆音色,雙軌獨(dú)立出聲
光說不練假把式,我們來看看它的“絕活兒”。
- 音色克隆(零樣本):這個功能簡直是殺手锏。你只需要喂給它一段 3秒 的人聲音頻,它就能“克隆”出這個音色,并用它來演唱一首全新的歌曲。想象一下,你可以用自己的聲音“唱”出搖滾、R&B,甚至是你根本唱不上去的海豚音。對于內(nèi)容創(chuàng)作者來說,這意味著無限的可能。
- 多軌生成(人聲、伴奏分離):這是專業(yè)度的體現(xiàn)。大部分模型生成的是一整個音頻文件,混在一起,后期基本沒法調(diào)整。SongGeneration 可以直接輸出獨(dú)立的人聲(Vocal)和伴奏(Instrumental)軌道。這意味著什么?你可以單獨(dú)為人聲做效果,或者拿掉人聲,直接用這個高質(zhì)量伴奏進(jìn)行二次創(chuàng)作。這已經(jīng)不是“玩具”,而是實(shí)實(shí)在在的“生產(chǎn)力工具”了。
- 風(fēng)格跟隨:上傳一段10秒的參考音頻,它就能領(lǐng)會精神,創(chuàng)作出風(fēng)格、節(jié)奏、配器都高度一致的新曲。無論是國風(fēng)、賽博朋克還是City Pop,它都能學(xué)得有模有樣。
核心技術(shù)拆解:不只是煉丹,更是巧思
為什么 SongGeneration 能做到這些?我深挖了一下它的技術(shù)論文,發(fā)現(xiàn)了一些非常有意思的東西:
- 超低比特率的“音樂速記”: 傳統(tǒng)的AI在處理音頻時,就像在讀一本超厚的字典,又慢又累。SongGeneration 首創(chuàng)了一個極低比特率(0.35kbps)的編解碼器。這好比是發(fā)明了一套“音樂速記法”,把復(fù)雜的音樂信息高度濃縮成最精華的符號。這樣一來,大模型處理起來就輕松多了,速度和效率自然飆升。
- “混合”與“雙軌”的協(xié)奏: 為了保證人聲和伴奏既和諧又有細(xì)節(jié),它用了一種很聰明的策略。先生成一個“混合軌道”的草稿,確定整首歌的骨架和感覺,保證“人歌合一”。然后,再精細(xì)打磨獨(dú)立的“雙軌”,把人聲的質(zhì)感和伴奏的細(xì)節(jié)給拉滿。一粗一細(xì),配合默契。
- 最懂你的“人類偏好對齊”: 這是最接近“藝術(shù)感”的部分。騰訊不僅用海量數(shù)據(jù)喂它,還教會了它“審美”。通過引入音樂性、歌詞對齊、提示詞一致性這三個維度的偏好數(shù)據(jù)進(jìn)行微調(diào),讓模型生成的結(jié)果不再是冰冷的算法堆砌,而是更符合人類聽感的“好音樂”。評測里提到,它的歌詞準(zhǔn)確度甚至超過了Suno v4.5,這就是偏好對齊的功勞。
開源,才是真正的“核武器”
聊了這么多技術(shù),但我覺得 SongGeneration 最具顛覆性的一點(diǎn),是它選擇了 開源。
在 Suno、Udio 等閉源商業(yè)模型筑起高墻的今天,騰訊選擇把自己的核心技術(shù)、模型權(quán)重、代碼全部開放,這無疑是在向全球的開發(fā)者和創(chuàng)作者發(fā)出邀請:“來,一起玩,把它變得更強(qiáng)!”
這意味著:
- 開發(fā)者可以基于它定制自己的音樂應(yīng)用。
- 獨(dú)立音樂人可以用它在本地?zé)o限生成靈感,而不用擔(dān)心高昂的訂閱費(fèi)。
- 內(nèi)容平臺可以將其集成到自己的生態(tài)里,為用戶提供AIGC配樂功能,還不用擔(dān)心版權(quán)扯皮。
我的看法: SongGeneration 的出現(xiàn),就像是 AI 音樂圈的“安卓時刻”。它或許不是第一個做到“能聽”的,但它通過開源,給了所有人一個機(jī)會,去構(gòu)建一個百花齊放的生態(tài)。它的目標(biāo),可能不只是做一個“Suno殺手”,而是想成為未來無數(shù)AI音樂應(yīng)用的“地基”。
總而言之,騰訊 AI Lab 的 SongGeneration 不僅是一款在技術(shù)上能與頂尖選手掰手腕的優(yōu)秀模型,更用開放的姿態(tài),為整個AI音樂創(chuàng)作領(lǐng)域注入了新的活力。
音樂創(chuàng)作的“大航海時代”,可能才剛剛拉開序幕。
本文轉(zhuǎn)載自??????墨風(fēng)如雪小站??????,作者:墨風(fēng)如雪
