撰稿 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
OpenAI的新動作來了!此前Altman在采訪中透露,在GPT-5史詩級的升級發布之前,OpenAI將在未來幾個月發布許多“很酷的新東西”。
今天,OpenAI語音引擎首次亮相,效果的確驚艷!更重要的是它的合成效率之高——只需要用戶上傳任何 15 秒的語音樣本,就能生成該語音的合成副本。
產品負責人哈里斯說,為語音引擎提供支持的生成式人工智能模型已經隱藏在人們的視線中一段時間了。OpenAI的新動作勢必讓語音克隆技術殺回我們的視野。
雖然算是突發新聞。但此次更新也是有端倪可循的。一周之前,X上的科技博主@Smoke-away 就發現OpenAI悄悄地注冊了VOICE ENGINE商標。
圖片
此前,網友也發現過OpenAI新的網站Feather(意為羽毛,詳細新聞見鏈接),但這個神秘項目卻遲遲沒有下文。
不過這一次, OpenAI這次的動作確實夠快的!
一、語音引擎要做什么?
OpenAI在其介紹頁展示了幾個令人印象深刻的案例。語音引擎的音色克隆效果自然、流暢,在不同語種之間切換時非常真實的保留了音色的特點,大家可以通過聽合成的中文音頻來更深地體會語音引擎的優秀(手動狗頭)。
1.教育場景-幫助視覺受損者和兒童閱讀
通過語音引擎的合成,能生成了比傳統預設聲音更為豐富和多樣的聲音,從而提升需要幫助者的閱讀體驗。
通過字幕學習西班牙語
2.翻譯場景-讓聲音無障礙的流向世界
制作的博客等聲音內容,可以翻譯成多種語音進行傳播。值得一提的是,用于翻譯時,語音引擎會保留原說話者的母語口音:用英語說話者的音頻樣本生成中文,就會產生帶有英語口音的語音,主打一個真實。
3.為偏遠地區提供服務
科技可以幫助我們與少數語音者進行無障礙溝通。例如案例中使用了語音引擎和 GPT-4 以每位工作人員的主要語言(包括斯瓦希里語或更非正式的語言)進行互動反饋。
生成的少數語種音頻,51CTO技術棧,15秒
4.讓失語者“發聲”
語音引擎還設想為不會說話的人提供幫助。用戶可以選擇最能代表自己的語音,與他們進行交流。語音引擎還保證對多語種用戶來說,每種口語都能保持一致的語音。讓那些從未開口的人擁有一種音色,這就是科技的浪漫所在吧。
二、語音引擎的背后技術
1.模型訓練——不能告知的訓練數據
在接受外媒采訪時,被問到模型訓練數據的來源,OpenAI產品人員哈里斯變得非常謹慎。他表示,這些數據基于授權信息和公開信息。
由于訓練數據通常涉及大量語音錄音,且往往被視為商業秘密,關于訓練數據和過程的具體細節往往保密。然而,這也導致了許多知識產權糾紛,例如紐約時報就曾對OpenAI提起訴訟。
隨著技術的成熟,使用侵權素材訓練模型的情況正在改善。OpenAI也已與國外Shutterstock、Axel Springer等內容提供商簽訂協議,并提供了阻止網絡爬蟲的選項,允許藝術家從其圖像生成模型的數據集中撤回作品。
但現階段,當科技高管們被問到這個問題,也許只能選擇像OpenAI CTO Mira那樣,做個“沉默的大多數”。
2.合成聲音——無需微調的技術設計
令人驚訝的是,語音引擎并未進行微調。這在一定程度上得益于語音引擎獨特的模型設計——通過擴散模型來即時生成語音。
哈里斯說:“我們采用少量音頻樣本和文本,生成與原始說話者相匹配的真實語音。” “請求完成后,所使用的音頻將被刪除。”
該模型通過分析語音數據和待朗讀的文本,直接生成匹配的語音輸出,無需為每個用戶構建個性化模型。盡管語音克隆技術在業界已非新鮮事物,但OpenAI聲稱其方法能夠提供更高質量的語音體驗。
TechCrunch 稱在OpenAI的營銷文件(現在已經刪除)中,Voice Engine 的定價為每百萬字符(約 162,500 個單詞)15 美元。這意味著大約 18 小時的音頻,使得價格略高于每小時 1 美元。這確實比更受歡迎的競爭對手之一 ElevenLabs 的收費便宜——每月 100,000 個字符 11 美元。
但OpenAI的語音引擎目前還沒有提供能調整語音細節的選項,如果初始聲音是興奮的或沮喪的,接下來合成的所有聲音都只能保持這個情緒。
三、AI克隆技術是敵是友?
盡管OpenAI 讓我們看到了語音克隆為“人類謀福利”的可行性,但隨著 Deepfakes 的激增,相關技術是否能一直被負責任的使用或許還要打個問號。
此前,美國科技媒體The Verge曾報道過一次語音合成的詐騙案件。網絡詐騙犯利用Deepfake仿制公司高管的語音,合成語音郵件發送至公司員工,對大型公司進行經濟詐騙。國內也曾有過類似事件的報道。
當前的合成語音雖然逼真,但仍然有技術上的漏洞。美國安全咨詢公司NISOS使用頻譜工具對案件中Deepfake音頻進行了分析,發現這段Deepfake語音的頻譜圖有峰值反復出現且音頻不連貫。
相較于合成音頻,真實人聲的音高與音調都更為平滑。此外,放大合成音頻的音量時,無法監測到該錄音的背景噪音,這進一步表明這段音頻是經過人為處理的。
然而,誰能保證隨著技術的發展,Deepfake不會走向更深處呢?
當前,OpenAI尚并未開放語音引擎的訪問權限。而是由紅隊的專家對其風險進行評估,并提出必要措施和減弱風險的策略,以阻止惡意使用。
哈里斯說,“我們不希望人們混淆合成聲音和真實的人類聲音。”
參考鏈接:
1.https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
2.https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/
3.https://www.thepaper.cn/newsDetail_forward_8488082