只需3kbps就能清晰通話,這個谷歌音頻工具開源了
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
3kbps也能清晰通話的神器Lyra,開源了!
Lyra是谷歌公司推出的一款不懼低帶寬的音頻編解碼器,用來實現隨時隨地高質量通話。
3kbps是什么概念?
換算成生活中常見的單位,等于0.375KB/s。
對比來看更加直觀,Skype官網給出的通話最低速度是30kbps,帶寬要求整整高出了10倍。

Lyra利用機器學習模型,將原始音頻壓縮到3kbps,即使沒有高速網絡,也能得到自然清晰的語音。
它的架構與傳統的編解碼器類似,分為編碼器和解碼器兩部分:

編碼器以40毫秒為單位,從語音中提取特征,進行壓縮后通過網絡傳輸。
解碼器利用機器學習模型,能使用最少的數據量重建語音,將特征轉換成完整的音頻波形,以進行播放。
帶寬要求低、效果更好
在Lyra之前,音頻編解碼器的比特率越低,語音的清晰度就越差,并且機械感越重。
傳統的音頻編解碼器使用的是數字信號處理技術,而Lyra則依賴其強大的信號重建能力。
由于Lyra無需逐個處理信號,因此無需高帶寬,而且在保持低比特率的同時,還能提供高質量的音頻輸出。

谷歌還使用Lyra與Opus、Speex,在6kbps和3kbps的情況下,對同一音頻的壓縮質量進行對比測試。
結果顯示:
在3kbps的情況下,Lyra性能優于現有的其他編解碼器;
在8kbps的情況下,其性能優于Opus,同時降低了超過60%的帶寬;
甚至,Lyra在3kbps情況下的語音清晰度,也優于6kbps情況下的Opus。

谷歌公司認為Lyra可能有廣泛的應用前景,比如:降低音頻文件大小,以存儲大量語音;節省手機電量;以及緩解網絡擁堵等。
已在GitHub開源
現在,Lyra已經在GitHub上開源。

Lyra使用Bazel構建框架,并且使用C++編寫代碼,以保證速度、效率和可操作性。
這一版本支持用戶在Linux上開發和調試,還針對64位ARM Android平臺進行了性能優化,使它不僅能在云服務器上運行,而且還可以在手機上實時運行和訓練。
此外,Lyra還為開發人員提供了編碼和解碼所需的工具。
谷歌工程師Andrew Storus和Michael Chinen表示:
“很高興看到開源社區的創造力能體現在Lyra上,以開發更多獨特和有影響力的應用。”