一個語音虛擬助理,比如Siri、Alexa、Cortana或者Google Home的表現,很大程度上是由驅動其的數據決定的。要訓練這些程序來理解你正在說什么,首先要擁有大量關于人類對話的現實案例數據。
這讓現有的語音識別公司擁有天然的優勢,因為他們已經大量地積累了對話樣本數據,能用于訓練算法。所以,希望在這個舞臺上競爭的創業公司必須擁有自己的一套語音音頻文件,也許可以從現有的文檔(如TED Talk轉錄構建的大約300小時的語料庫)獲得。
卡內基梅隆大學研究教授 Alexander Rudnicky說,開發人員通常需要訪問數百或數千小時的音頻。
谷歌從某種程度上也認可了這一說法,上周,他們發布了全球錄音的眾包數據集。這一包含了 65,000 條一秒鐘音頻剪輯的語料庫包括了來自世界各地的人們說的簡單的指令詞 :“ 是的”,“不”,“停止”,“去”等等。
Mozilla是開源Firefox瀏覽器的擁有者。Mozilla最近推出了一個名為Common Voice的新項目。他們的目標是建立一個免費對外提供的,眾包的世界各地語音樣本數據集,包含各種樣本單詞和句子。
谷歌的錄音是AIY自動動手開發人工智能項目的一部分,旨在使創客們能夠體驗機器學習。 “我們用來創建數據的基礎設施也是開源的,美國服務器租用 美國站群服務器,我們希望看到它被更廣泛的社區用來創建自己的版本,特別是覆蓋服務不足的語言和應用程序,”谷歌軟件工程師Pete Warden說。
總的來說,它不僅是超過一千兆字節的聲音,還是谷歌收集的用于訓練自己的AI系統的語音數據總量的一小部分。該公司曾經開設了一個自動化的助理服務,事實證明,這是他們收集人類語音數據的一種方式。
亞馬遜的Alexa將用戶的語音查詢命令傳輸到服務器,用于進一步訓練該工具。蘋果通過聘請朗讀者來閱讀特定的文本,教會Siri新的語言和方言,并讓人從服務器上的語音到文本轉換模型上轉錄寫語音片段。據報道,微軟已經在世界各地設立了模擬公寓,以栩栩如生的環境中捕捉到的音頻片段來訓練Cortanan 數字助理。
但是,以上所有這些都是私人公司持有的,通常不對學術界、研究人員或將來的競爭對手開放。這就是為什么Mozilla決定推出其Common Voice項目。
“當我們開始開發這些系統時,我們發現我們可以在算法的基礎上建立其他人的作品,并在算法方面做自己的創新工作,但是對于所有這些,數據選擇,創建和聚合是一個挑戰,“Mozilla新興技術高級副總裁肖恩·懷特(Sean White)說。 “如果你想做一個新的語音識別系統,你不能到市場上隨便就能找到一個高質量的數據集來使用。”
Common Voice 邀請所有具有互聯網連接和麥克風的人通過網頁瀏覽器上的幾次點擊來提交他們自己閱讀特定句子的簡短記錄。這與谷歌的項目工作方式類似,雖然Common Voice要求人們提交完整的句子,而谷歌只要求錄入那些通常用作命令的特定單詞和數字。
這些句子是由志愿者提交的那些會話短語的混合,鄭州電信服務器 服務器托管,比如 -“她把充電器還給我了”是項目的GitHub文件中的一個,出自經典電影Charade and It’s a Wonderful Life。 Mozilla還要求參與者提供一些基本的人口統計信息,如年齡,性別和英語方言區(例如美國英語,加拿大英語或英語,西印度群島和百慕大)。
該項目在首次開放的大約57天內收集了大約307,000個錄音,每段約3至5秒。 Mozilla開放式創新團隊數字戰略家Michael Henretty說,這使得總音頻的播放時間達到了 340 到 520小時。
他說:“我們已經超越了TED演講,那是其中一個較大的開源數據集。
Mozilla的目標是在今年晚些時候發布一個版本的數據集,希望能在這段時間內擁有10,000小時的音頻,這個數字估計足以訓練現代的生產質量標準的系統。這遠遠超過谷歌剛剛提供的18小時的音頻剪輯數據庫。擁有大量和各種各樣的語音樣本的關鍵原因之一是使得在其上訓練的算法避免了意想不到的偏見。因為任何一個嘗試使用語音助手的重口音的人都可以證明,這些系統在理解簡單的英語方面比別的更好。
谷歌收購的數據科學社區 Kaggle 的數據準備分析師 Rachael Tatman 在今年早些時候發表了一篇關于性別和方言如何影響 YouTube 自動化標題準確性的文章。她發現 YouTube 自動標題對于女性和蘇格蘭口音的演講不太準確,但根據訓練數據的使用情況,不同的系統可能會出現不同的錯誤模式。