Nvidia 和 Mozilla 公布新版 Common Voice 數據集，已支持 76 種語言

作者：Alias_Travis 2021-08-02 09:52:44

Common Voice 是 Mozilla 的開源項目，基于 MPL 協議發行，到目前為止已經誕生了幾年時間，它允許志愿者們為語音識別軟件的數據庫做出貢獻，而這個數據庫屬于公共領域，所有人都可以將這些數據用于語音合成和識別軟件。

今年 4 月，Nvidia 通過向 Mozilla 投資 150 萬美元的方式參與了這項計劃的合作。

近日，在雙方和整個社區的共同努力下，Common Voice 數據集的最新版本正式公開了。它帶來了多項值得注意的新內容。首先，該語料數據集現在有超過 13000 小時的眾包語音數據。與之前的版本相比，最新版本帶來了 4622 小時的全新音頻數據。還增加了 16 種新語言，即巴薩語、斯洛伐克語、北庫爾德語、保加利亞語、哈薩克語、巴什基爾語、加利西亞語、維吾爾語、亞美尼亞語、白俄羅斯語、烏爾都語、瓜拉尼語、塞爾維亞語、烏茲別克斯坦語、阿塞拜疆語和豪薩語。這使得數據集中的語言總數達到了 76 種。總的來說，該數據集現在有超過 182,000 個獨特的聲音，過去六個月里貢獻者社區增長了 25% 。

Mozilla 新發布的 Common Voice 數據集的其他內容包括：

按總時長排列的前五的語言是英語(2630 小時)、基尼亞盧旺達語(2260 小時)、德語(1040 小時)、加泰羅尼亞語(920 小時)和世界語(840 小時);
按百分比增加最多的語言是泰語(增長了 20 倍，從 12 小時增長到 250 小時)，盧干達語(增長了 10 倍，從 8 小時到 80 小時)，世界語(增長了 8 倍多，從 100 小時到 840 小時)，以及泰米爾語(增長了 9 倍多，從 24 小時到 220 小時);

如果你有興趣為 Common Voice 數據集做出貢獻，可以訪問項目官網參與這項計劃，為項目添磚加瓦。想要將數據集用于相關項目開發的開發者可以在 GitHub 倉庫中找到源代碼和使用文檔。作為 Mozilla 和 Nvidia 合作的一部分，在這個公共數據集上訓練的模型可以通過 Nvidia NeMo 免費獲得。

本文轉自OSCHINA

本文標題：Nvidia 和 Mozilla 公布新版 Common Voice 數據集，已支持 76 種語言

本文地址：https://www.oschina.net/news/153279/nvidia-and-mozilla-latest-version-common-voice-data

責任編輯：未麗燕來源：開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Nvidia 和 Mozilla 公布新版 Common Voice 數據集，已支持 76 種語言