Nvidia 和 Mozilla 公布新版 Common Voice 數據集,已支持 76 種語言
Common Voice 是 Mozilla 的開源項目,基于 MPL 協議發行,到目前為止已經誕生了幾年時間,它允許志愿者們為語音識別軟件的數據庫做出貢獻,而這個數據庫屬于公共領域,所有人都可以將這些數據用于語音合成和識別軟件。
今年 4 月,Nvidia 通過向 Mozilla 投資 150 萬美元的方式參與了這項計劃的合作。
近日,在雙方和整個社區的共同努力下,Common Voice 數據集的最新版本正式公開了。它帶來了多項值得注意的新內容。首先,該語料數據集現在有超過 13000 小時的眾包語音數據。與之前的版本相比,最新版本帶來了 4622 小時的全新音頻數據。還增加了 16 種新語言,即巴薩語、斯洛伐克語、北庫爾德語、保加利亞語、哈薩克語、巴什基爾語、加利西亞語、維吾爾語、亞美尼亞語、白俄羅斯語、烏爾都語、瓜拉尼語、塞爾維亞語、烏茲別克斯坦語、阿塞拜疆語和豪薩語。這使得數據集中的語言總數達到了 76 種。總的來說,該數據集現在有超過 182,000 個獨特的聲音,過去六個月里貢獻者社區增長了 25% 。
Mozilla 新發布的 Common Voice 數據集的其他內容包括:
- 按總時長排列的前五的語言是英語(2630 小時)、基尼亞盧旺達語(2260 小時)、德語(1040 小時)、加泰羅尼亞語(920 小時)和世界語(840 小時);
- 按百分比增加最多的語言是泰語(增長了 20 倍,從 12 小時增長到 250 小時),盧干達語(增長了 10 倍,從 8 小時到 80 小時),世界語(增長了 8 倍多,從 100 小時到 840 小時),以及泰米爾語(增長了 9 倍多,從 24 小時到 220 小時);
如果你有興趣為 Common Voice 數據集做出貢獻,可以訪問項目官網參與這項計劃,為項目添磚加瓦。想要將數據集用于相關項目開發的開發者可以在 GitHub 倉庫中找到源代碼和使用文檔。作為 Mozilla 和 Nvidia 合作的一部分,在這個公共數據集上訓練的模型可以通過 Nvidia NeMo 免費獲得。
本文轉自OSCHINA
本文標題:Nvidia 和 Mozilla 公布新版 Common Voice 數據集,已支持 76 種語言
本文地址:https://www.oschina.net/news/153279/nvidia-and-mozilla-latest-version-common-voice-data