Mozilla開源語音募集計劃Common Voice擴大支援簡體中文

English
繁體中文

Mozilla

2019-05-08 19:14 7444

English
繁體中文

開發(fā)開源Firefox瀏覽器的非營利組織Mozilla宣布，其所推動之最大語音資料募集計劃 -- Common Voice平臺已正式支援簡體中文。從現在開始，網友可到Common Voice的簡中網站錄制音檔。

Mozilla 開始收集大陸地區(qū)漢語語音資料，更進一步充實其公開語音資料集
現已收集27種不同語言的錄音音檔，并將再擴大支援72種語言
Common Voice （“同聲計劃”）是史上最大的開源語音轉錄文字資料集，其最新釋出的資料庫囊括來自逾4.2萬貢獻者以18種語言錄制的音檔，總長近1,400小時

臺北2019年5月8日 /美通社/ -- 開發(fā)開源 Firefox 瀏覽器的非營利組織 Mozilla 宣布，其所推動之最大語音資料募集計劃 -- Common Voice 平臺已正式支援簡體中文。在廣大的 Mozilla 社群及語言專家伙伴的辛勤努力下，從現在開始，網友可到 Common Voice 的簡中網站（https://voice.mozilla.org/zh-CN）錄制音檔。

語音介面是網際網路未來大勢之所趨。車用語音助理、智慧手表、智慧燈泡等，內建語音辨識技術的裝置可謂與日俱增。然而，相關技術的創(chuàng)新仍面臨重大阻礙 -- 有意打造語音輔助方案的新創(chuàng)公司、研究人員或各種開發(fā)者都需取得大量、轉錄為文字的語音數據，才能訓練機器學習的演算法。但現有公開語音資料集的語音資料量與支援語種數都極其有限，而私有的語音資料不但僅掌握在少數幾家公司手中，而且費用高昂。

有鑒于此，Mozilla 自2017年6月起展開 Common Voice 計劃，希望建立全球化的開源語音語料庫，以因應語音介面的發(fā)展需求并突破現階段的市場局限。Mozilla 認為，此類介面不該只把持在少數幾家握有語音服務技術的廠商手中，而且，Mozilla 希望能讓使用者以自己的語言和熟悉的腔調來吸收和了解資訊。

已收集包括漢語（簡中）在內的27種語音資料

Common Voice 在2018年6月開始收集多語語音資料。從那時起，此專案便不斷壯大，變得更全球化、更具包容性。在過去10個月間，大批的熱血貢獻者踴躍響應，已在 Common Voice 網站上發(fā)起27種語言音檔的收集計劃，另外還有高達72種語言的錄音計劃正在進行中。

最新加入的語言是漢語（簡體中文）?，F在，世界各地的網友都可到 https://voice.mozilla.org/zh-CN 網站捐聲音，或驗證其他人錄音的音檔。

Mozilla 開源語音募集計劃 Common Voice 擴大支援簡體中文。

語音貢獻者還可選擇保留專案紀錄，以掌握自己的錄音紀錄。此外，他們也可選擇提供人口特征資訊，以協助 Mozilla 改善用以訓練語音識別引擎的語音資料。

一如 Common Voice 收集的其他語言資料，Mozilla 對于漢語（簡中）的目標是要累積約1萬小時之通過驗證的音檔，因為1萬小時的音檔量才足以訓練出完備的語音辨識系統。除此以外，這還附帶另一個好處：所有人都可“同聲”一氣，共同推動語音辨識技術的進展。無論在上班途中、在公車上、午休時間、在家里，或與親朋好友齊聚一堂時，不管是透過 voice.mozilla.org 網站或 iOS 應用，只要有手機或電腦，就能捐聲音或驗證其他人的音檔。

Mozilla 開源創(chuàng)新計劃總監(jiān) George Roter 表示：“就算一個人只錄或聽幾秒鐘的音檔，但若貢獻者多達數十萬，加起來的資料量就非常驚人！當更多人都愿意出一份力時，這套語音資料集的價值就能更快提升。”

釋出多語語音資料集

Mozilla 將一本初衷、繼續(xù)充實語音資料集的內涵，使其成為人人可用的公有資源。Mozilla 已于今年二月釋出第一批的多語語音資料集，其中共涵蓋18種語言的錄音音檔，包括：英文、法文、德文和華語（正體中文）等廣泛通行的語言，以及威爾斯語及卡拜爾語等較為冷門的語言。Common Voice 至今已收集逾4.2萬人貢獻的錄音，總長度約1,400小時，且語音資料量仍持續(xù)成長中。

在此資料集釋出后，Common Voice 的規(guī)模已超越其他同類型的語音資料集，并已將數萬人的錄音音檔及對應文字開放給公眾使用（采 CC0 授權）。任何人都可到 Common Voice 網站下載完整的語音資料集。

Mozilla 開源語音募集計劃 Common Voice 擴大支援簡體中文。

George Roter 進一步表示：“Mozilla 致力于促進更多元創(chuàng)新之語音科技生態(tài)系的發(fā)展。我們不但希望能自行推出語音技術的產品，也立志傾力支援研究人員及小公司的發(fā)展，在建立全球最大公共的多語語音資料集的過程中，我們很榮幸得到越來越多人的幫助，也很感謝志愿者的熱情相挺，讓我們成功展開對于簡體中文的支持?！?/p>

消息來源：Mozilla