別只盯著Suno了，騰訊端出的這盤“王炸”可能要改變游戲規(guī)則

墨風(fēng)如雪小站

發(fā)布于 2025-6-23 07:24

瀏覽

0收藏

當(dāng)大家還在為 Suno 和 Udio 生成的以假亂真的旋律驚嘆時，牌桌上的一個“老玩家”悄無聲息地扔出了一對王炸。

是的，我說的就是騰訊 AI Lab。他們這次拿出的開源音樂大模型 SongGeneration，給我的感覺就像在平靜的湖面投下了一顆深水炸彈。它不僅技術(shù)上硬核，而且“開源”這兩個字，直接把格局拉滿了。

作為一個天天泡在各種模型和代碼里的人，我可以負(fù)責(zé)任地說，這不僅僅是一個新玩具，更像是一份宣言，一份要把音樂AIGC門檻徹底打下來的宣言。

別只盯著Suno了，騰訊端出的這盤“王炸”可能要改變游戲規(guī)則-AI.x社區(qū)

一上來就解決“老大難”：音質(zhì)、樂感和速度

玩過AI音樂生成的朋友都懂，最頭疼的是什么？

要么是生成的曲子聽著像上個世紀(jì)的MIDI音效，音質(zhì)感人；要么是旋律東拼西湊，毫無“音樂性”可言；要么就是你輸入“一首悲傷的歌”，它給你生成個二人轉(zhuǎn)，驢唇不對馬嘴。哦，對了，還有那動輒一杯咖啡才出結(jié)果的龜速。

SongGeneration 這次的目標(biāo)非常明確，就是沖著這三大痛點(diǎn)來的。他們用的 LLM-DiT 融合架構(gòu)，簡單來說，就是讓擅長理解人類語言的大模型（LLM）去當(dāng)“制作人”，指揮專業(yè)的“音頻渲染師”（DiT架構(gòu)），在保證出活兒快的同時，把音質(zhì)和樂感死死拿捏住。

別只盯著Suno了，騰訊端出的這盤“王炸”可能要改變游戲規(guī)則-AI.x社區(qū)

聽聽這“黑話”：三秒克隆音色，雙軌獨(dú)立出聲

光說不練假把式，我們來看看它的“絕活兒”。

音色克隆（零樣本）：這個功能簡直是殺手锏。你只需要喂給它一段 3秒的人聲音頻，它就能“克隆”出這個音色，并用它來演唱一首全新的歌曲。想象一下，你可以用自己的聲音“唱”出搖滾、R&B，甚至是你根本唱不上去的海豚音。對于內(nèi)容創(chuàng)作者來說，這意味著無限的可能。
多軌生成（人聲、伴奏分離）：這是專業(yè)度的體現(xiàn)。大部分模型生成的是一整個音頻文件，混在一起，后期基本沒法調(diào)整。SongGeneration 可以直接輸出獨(dú)立的人聲（Vocal）和伴奏（Instrumental）軌道。這意味著什么？你可以單獨(dú)為人聲做效果，或者拿掉人聲，直接用這個高質(zhì)量伴奏進(jìn)行二次創(chuàng)作。這已經(jīng)不是“玩具”，而是實(shí)實(shí)在在的“生產(chǎn)力工具”了。
風(fēng)格跟隨：上傳一段10秒的參考音頻，它就能領(lǐng)會精神，創(chuàng)作出風(fēng)格、節(jié)奏、配器都高度一致的新曲。無論是國風(fēng)、賽博朋克還是City Pop，它都能學(xué)得有模有樣。

別只盯著Suno了，騰訊端出的這盤“王炸”可能要改變游戲規(guī)則-AI.x社區(qū)

核心技術(shù)拆解：不只是煉丹，更是巧思

為什么 SongGeneration 能做到這些？我深挖了一下它的技術(shù)論文，發(fā)現(xiàn)了一些非常有意思的東西：

超低比特率的“音樂速記”：傳統(tǒng)的AI在處理音頻時，就像在讀一本超厚的字典，又慢又累。SongGeneration 首創(chuàng)了一個極低比特率（0.35kbps）的編解碼器。這好比是發(fā)明了一套“音樂速記法”，把復(fù)雜的音樂信息高度濃縮成最精華的符號。這樣一來，大模型處理起來就輕松多了，速度和效率自然飆升。
“混合”與“雙軌”的協(xié)奏：為了保證人聲和伴奏既和諧又有細(xì)節(jié)，它用了一種很聰明的策略。先生成一個“混合軌道”的草稿，確定整首歌的骨架和感覺，保證“人歌合一”。然后，再精細(xì)打磨獨(dú)立的“雙軌”，把人聲的質(zhì)感和伴奏的細(xì)節(jié)給拉滿。一粗一細(xì)，配合默契。
最懂你的“人類偏好對齊”：這是最接近“藝術(shù)感”的部分。騰訊不僅用海量數(shù)據(jù)喂它，還教會了它“審美”。通過引入音樂性、歌詞對齊、提示詞一致性這三個維度的偏好數(shù)據(jù)進(jìn)行微調(diào)，讓模型生成的結(jié)果不再是冰冷的算法堆砌，而是更符合人類聽感的“好音樂”。評測里提到，它的歌詞準(zhǔn)確度甚至超過了Suno v4.5，這就是偏好對齊的功勞。

別只盯著Suno了，騰訊端出的這盤“王炸”可能要改變游戲規(guī)則-AI.x社區(qū)

開源，才是真正的“核武器”

聊了這么多技術(shù)，但我覺得 SongGeneration 最具顛覆性的一點(diǎn)，是它選擇了開源。

在 Suno、Udio 等閉源商業(yè)模型筑起高墻的今天，騰訊選擇把自己的核心技術(shù)、模型權(quán)重、代碼全部開放，這無疑是在向全球的開發(fā)者和創(chuàng)作者發(fā)出邀請：“來，一起玩，把它變得更強(qiáng)！”

這意味著：

開發(fā)者可以基于它定制自己的音樂應(yīng)用。
獨(dú)立音樂人可以用它在本地?zé)o限生成靈感，而不用擔(dān)心高昂的訂閱費(fèi)。
內(nèi)容平臺可以將其集成到自己的生態(tài)里，為用戶提供AIGC配樂功能，還不用擔(dān)心版權(quán)扯皮。

我的看法： SongGeneration 的出現(xiàn)，就像是 AI 音樂圈的“安卓時刻”。它或許不是第一個做到“能聽”的，但它通過開源，給了所有人一個機(jī)會，去構(gòu)建一個百花齊放的生態(tài)。它的目標(biāo)，可能不只是做一個“Suno殺手”，而是想成為未來無數(shù)AI音樂應(yīng)用的“地基”。

別只盯著Suno了，騰訊端出的這盤“王炸”可能要改變游戲規(guī)則-AI.x社區(qū)