生成式AI走進小學生「編程第一課」:畫條線生成音樂、草圖一秒變大作
在經典作品《小王子》中,有這樣一幕情節:一個小孩子畫下了蛇吞象的樣子,他向大人們展示自己的作品,并問他們害不害怕。然而,所有的成年人都說:「一頂帽子有什么可怕的?」
但對于充滿想象力的孩子來說,這并不是一頂帽子,而是一條正在消化大象的蟒蛇:
相信每一位讀者都曾被這段情節所打動,這就是藝術創作的精髓所在。對于小朋友來說,即使是幾筆簡單的線條,也代表著最純真可愛的想象。
比如,簡單的幾筆涂鴉,為何不能代表光怪陸離的科幻世界?借助 AI 的「畫筆」,從靈感到完整作品也不過幾秒的時間:
再比如,一條隨手畫出的波浪線,也能變成一段美妙的旋律:
這些神奇的「AI 魔法」,都來自于一個名為「騰訊 AI 編程第一課」的小程序。
騰訊AI編程第一課,,,
騰訊AI編程第一課
小程序
孩子們的「AI 第一課」
自 2022 年以來,生成式 AI 熱度不減,以 Stable Diffusion、GPT-4、PaLM 2 為代表的大模型成為了熱門關鍵詞,并衍生出文本生成、圖像生成、動畫制作、視頻生成等領域的落地產品,深刻改變了人們的生活方式。
不難想象,未來將是 AI 創造更多價值的時代。這個時代對青少年的 AI 認知與計算思維提出了新的要求,但這些「高大上」的技術,對孩子們來說仍然是有距離感的。
如何將最前沿的技術以易感知的方式傳遞給他們,增強青少年對科學技術的興趣、深化青少年對 AI 領域發展的認知呢?
通過劇本式、「玩中學」的方式,騰訊與中國宋慶齡基金會共同發布「AI 編程第一課」公益項目,為全國零基礎青少年提供 AI 和編程啟蒙小程序平臺,首批上線內容結合中國航天、未來交通兩項國家重大科技議題,原創趣味探索故事,讓青少年在1小時中初識計算思維、AI基本原理、人機協同理念等。
開學之際,「騰訊 AI 編程第一課」正式上線。在騰訊音樂天琴實驗室的技術支持下,小程序上線了「AI 創作」版塊,分為「AI 作曲」和「AI 作畫」兩個功能,希望能讓孩子們體驗到最新 AI 技術的魅力。
今年 10 歲的靜宜(化名)是「騰訊AI 編程第一課」的首批「用戶」之一。幾天試用下來,最讓她好奇的就是「AI 創作」功能的實現原理:
「為什么不同的線可以生成不同的曲調?」
「曲線如何變成音樂?」
「AI 是怎么猜到我心中想畫的是什么呢?」
這些問題的確令人好奇,所以這款寶藏應用背后有哪些 AI 技術?接下來,讓我們一探究竟。
從一條線到「宮商角徵羽」的神奇之旅
提到 AI 音樂生成,大部分人并不陌生。今年 1 月,谷歌發布了「MusicLM」,實現了從文本或圖像中生成高保真音樂。之后,Meta 開源了可生成各種音頻的 PyTorch 庫「AudioCraft」,能夠基于用戶輸入的文本生成高質量、高保真的音頻,不僅能生成有旋律的音樂,甚至還可以選擇樂器。這一系列方法都有一個特點:直接從文本 / 圖像生成音頻。
在「AI 作曲」功能研發過程中,天琴實驗室首先對上述方法進行了嘗試與評估。他們發現,現有的從文本到音頻的音樂生成大模型確實取得了不錯的進展,但距離大規模商用還有一個挑戰必須解決:采樣率低的問題。
「音樂的標準采樣率為 44.1 kHz 或 48 kHz,語音的采樣率是 16 kHz,目前大部分方法生成的音樂只有 24 kHz 或者 32 kHz,音質有待提升。」天琴實驗室 AI 作曲團隊技術人員澤文表示。
來自 QQ 音樂負責此次「AI 作曲」功能研發的團隊成員都有過音樂創作經歷,有人曾擔任樂隊吉他手,也有人曾是音樂制作人。這些經歷讓他們對于生成音樂的質量要求更加極致,同時也帶來了重要的啟發:他們忽然想到,或許可以采用與人類創作過程非常相似的生成方式,以保證音樂的連貫性和高質量。
最終,他們決定采用「符號音樂生成」這一技術路線。「從自然語言處理的角度來看,樂符本來就可視為一種語言,不同的是樂譜包含的信息密度比文本更高,還包括旋律、節拍、樂器、流派等。」天琴實驗室 AI 作曲技術人員哲旭表示。
經過與一線產品團隊的交流,技術團隊還獲得了一個重要洞察:相比于常見的「哼唱識曲」,「畫線譜曲」對于青少年來說是更具新鮮感的生成方式,更能引發他們對 AI 的興趣。
在這個設想的推動下,技術團隊以「曲線」作為輸入,以樂譜轉化為音頻作為輸出,打造出了頗具創意的「AI 作曲」功能。具體來說:
- 第一步是從劃線圖像到音符的識別。孩子們畫線的起伏高低就象征著旋律的變化,界面中的橫軸為時間,縱軸對應不同的音符「do re mi sol la」,同時,也對應著中國傳統的五音「宮商角徵羽」。
- 第二步是旋律的續寫。有了五個音符的組合,AI 就有了靈感,并將其擴展為一段 16 秒的旋律。模型基于自回歸的方式逐個音符進行預測,每個時刻的輸入都依賴于上一個時刻的輸出,直到生成一段連貫的音樂。
- 第三步就是編曲。編曲模型會分析旋律的節奏、調子、和弦,給旋律加上不同的樂器和節奏,并提供了流行、古典和電子三種編曲風格。
- 第四步是算法渲染,樂譜將被轉化為音頻。
至此,一首完整的音樂就完成了。
天琴實驗室 AI 作曲負責人 Ethan 表示,符號音樂生成技術的價值遠不止于娛樂向、教育向的 C 端產品,更值得期待的是成為高效的音樂人創作工具。從文本直接到音頻的過程像一個「黑箱」,而「符號音樂生成」有完整的樂理系統支撐,生成結果也是可編輯的,音樂人可以在生成的樂譜中進行二次創作。
這種對于技術落地價值的考量,在天琴實驗室的技術探索中是一以貫之的。作為騰訊音樂旗下首個音視頻實驗室,他們希望真正將 AI 創新技術融入到產品之中,為用戶提供高度個性化及差異化的音樂娛樂體驗。
目前,天琴實驗室在 AI 音樂生成的技術積累已經覆蓋了作曲、混音、編曲、作詞、演唱等全部音樂創作環節。除了提供「作曲、混音、編曲」能力的一站式音樂生成技術「琴樂」,以及 AI 輔助作詞平臺「覓詞」。此外,騰訊音樂 AI 伴侶「小琴」和「小天」兩款虛擬人產品均已應用于歌曲的智能演唱之中。
比如,本次「AI 編程第一課」的主題曲《魔法字符》,就是由騰訊、QQ 音樂、騰訊音樂天琴實驗室共同打造的,從作曲到演唱全鏈路均由 AI 完成。其中,「琴樂」一站式音樂生成技術完成作曲、混音及編曲,「覓詞」輔助創作了趣味十足的魔法歌詞,虛擬人「小琴」負責最終演繹。
AI 時代,每個人都是「神筆馬良」
與音樂的意義類似,繪畫也是一種表達情感的方式。
當前,AI 在繪畫生成方面的應用已經比較成熟,比如通過文字 Prompt 生成圖像的 Stable Diffusion、Midjourney。但用過的人都知道,如何設計 Prompt 也是一大難點,生成結果未必總能「如人所愿」。
問題來了:AI 能不能接住小朋友的奇思妙想呢?
天琴實驗室 AI 作畫團隊的成員們意識到,對于「AI 作畫」功能的用戶群體 6-12 歲的孩子來說,以文字形式去生成圖像仍然存在一定的門檻,特別是僅使用文本難以控制生成細節,無法對圖片進行細化編輯。
因此,他們將目光鎖定在一種更能發揮想象力和創造力的方法:線稿成畫。
在「AI 編程第一課」的「AI 作畫」中,不同于傳統的「文生圖」需要輸入非常復雜的 Prompt,用戶只需要簡單描繪幾筆,就能讓「草圖」變成「精品」。
這種方法不僅需要擴散模型強大的生成能力,還需要精確的條件控制方案。「AI 作畫」這一功能能夠在短時間內順利上線,很大程度上得益于天琴實驗室在圖像生成領域的技術積累。
從 2022 年,天琴實驗室開始布局生成式 AI 技術,并在 QQ 音樂和全民 K 歌中應用落地,比如直播禮物、歌詞海報、歌曲背景圖、AIGC 播放器、歌曲封面圖等多項功能。對生成圖像風格 / 內容的精確控制,一直是天琴實驗室在重點研究的方向。
比如,「AI 歌曲封面」就是 AI 技術與音樂理解結合的一大成果,為 QQ 音樂曲庫中大量封面留空的作品自動生成封面,不僅能夠讓音樂人和作品的關注度得到提升,更重要的為新上作品提供了降低制作成本的選擇。
此外,天琴實驗室還推出了 AI 音樂視覺生成技術 MUSE(Music Envision),「以歌生圖」能力就是其一大亮點:用戶選擇一首歌或一段歌詞,就可以將歌曲的意境用 AI 技術具象化呈現出來,包括歌詞海報、歌詞動效視頻等視覺內容。
這種「意境」與「具象」的轉化,在本次「AI 作畫」中也有所體現。「小朋友的繪畫作品可能會更加寫意,對于這種情況,我們專門使用兒童涂鴉和最終成品圖進行了搭配訓練,為模型定制相關能力以提升最終生成效果。」天琴實驗室 AI 作畫負責人 Ben 表示。「我們在精確描繪和物體識別之間進行了一種平衡,一方面讓草圖的線條起到引導作用,另一方面通過簡單的線條進行內容本身的識別,同時給到模型一定的自由發揮空間。」
而這些成果和經驗不只用于騰訊音樂的內部業務,也正在賦能全行業。
很多 AI 應用面向的用戶數量都比較龐大,這將帶來極高的大模型推理成本。對于這個問題,天琴實驗室推出了 MUSE Light 大模型推理加速引擎,并在 HuggingFace 公開發布了 lyraSD、lyraChatGLM、lyraBELLE 三項開源大模型的加速版本,實踐效果均為行業領先,在 B 端助力技術從業者和科研工作者節約時間和成本。
在「AI 編程第一課」的研發實踐中,MUSE Light 幫助節省了 90% 以上的推理成本,使圖像的生成加速了 10 倍,且有效提升了用戶體驗。
此外,團隊還觀察到:「從草圖生成圖像的技術已經取得不錯的效果,但如果他人想去嘗試一件同樣的事情,前期會花很多的時間,才能找到比較合用的模型。」
為了解決這個痛點,天琴實驗室將過往的技術實踐經驗匯集在 AI 繪圖創作平臺「MUSE UI」之中。該平臺融合了 MUSE Light 大模型推理加速等多項行業領先的創新技術,提供了「一鍵出圖」、「模型廣場」、「圖搜模型」、「動圖生成」、「一鍵定制繪圖加速服務」、「多場景繪圖應用」等多項功能。借助 MUSE UI,設計師、插畫師和其他專業人士將節約更多時間成本并最大程度地提高效率。
據了解,經過內部業務實踐的檢驗之后,MUSE UI 平臺也將在不久后面向全行業開放。
當萬物皆可 AI 生成的時代來臨
這兩年來,與生成式 AI 相關的技術創新與應用總能成為熱門話題。
雖然從內容生產的維度去評價,AI 生成音樂、圖像作品的藝術價值還存在諸多爭議。但可以期待的是,隨著技術的不斷發展,現階段的很多問題將被克服,AI 生成內容的水準必然會有所突破。
從生產力發展的角度看,生成式 AI 使得內容生產的門檻不斷降低,效率不斷提高,這對于各行各業來說都是巨大的變革。例如,使用 AI 生成營銷文案,成本僅為人工撰寫的幾十分之一,且內容更加多樣化。
可以確定的是,未來的社會生產分工,將會更注重人機協作模式,對人的計算思維能力的培養也更加重要。我們必須適應這種變化,找到自身在新時代的定位,更充分地去感受科技帶來的美好。
在這種背景下,科學教育理念也需要隨之進化。對于今天的青少年來說,他們未必需要過多關注 AI 的底層技術,未必需要一行一行地編寫代碼,更重要的是先學會如何「Prompt」。
對于「AI 編程第一課」的青少年用戶來說,這可能是他們的「AI 第一課」,也是他們成為智能時代新型人才的起航點。