一個語音虛擬助理,比如Siri、Alexa、Cortana或者Google Home的表現(xiàn),很大程度上是由驅(qū)動其的數(shù)據(jù)決定的。要訓(xùn)練這些程序來理解你正在說什么,首先要擁有大量關(guān)于人類對話的現(xiàn)實(shí)案例數(shù)據(jù)。
這讓現(xiàn)有的語音識別公司擁有天然的優(yōu)勢,因?yàn)樗麄円呀?jīng)大量地積累了對話樣本數(shù)據(jù),能用于訓(xùn)練算法。所以,希望在這個舞臺上競爭的創(chuàng)業(yè)公司必須擁有自己的一套語音音頻文件,也許可以從現(xiàn)有的文檔(如TED Talk轉(zhuǎn)錄構(gòu)建的大約300小時(shí)的語料庫)獲得。
卡內(nèi)基梅隆大學(xué)研究教授 Alexander Rudnicky說,開發(fā)人員通常需要訪問數(shù)百或數(shù)千小時(shí)的音頻。
谷歌從某種程度上也認(rèn)可了這一說法,上周,他們發(fā)布了全球錄音的眾包數(shù)據(jù)集。這一包含了 65,000 條一秒鐘音頻剪輯的語料庫包括了來自世界各地的人們說的簡單的指令詞 :“ 是的”,“不”,“停止”,“去”等等。
Mozilla是開源Firefox瀏覽器的擁有者。Mozilla最近推出了一個名為Common Voice的新項(xiàng)目。他們的目標(biāo)是建立一個免費(fèi)對外提供的,眾包的世界各地語音樣本數(shù)據(jù)集,包含各種樣本單詞和句子。
谷歌的錄音是AIY自動動手開發(fā)人工智能項(xiàng)目的一部分,旨在使創(chuàng)客們能夠體驗(yàn)機(jī)器學(xué)習(xí)。 “我們用來創(chuàng)建數(shù)據(jù)的基礎(chǔ)設(shè)施也是開源的,美國服務(wù)器租用 美國站群服務(wù)器,我們希望看到它被更廣泛的社區(qū)用來創(chuàng)建自己的版本,特別是覆蓋服務(wù)不足的語言和應(yīng)用程序,”谷歌軟件工程師Pete Warden說。
總的來說,它不僅是超過一千兆字節(jié)的聲音,還是谷歌收集的用于訓(xùn)練自己的AI系統(tǒng)的語音數(shù)據(jù)總量的一小部分。該公司曾經(jīng)開設(shè)了一個自動化的助理服務(wù),事實(shí)證明,這是他們收集人類語音數(shù)據(jù)的一種方式。
亞馬遜的Alexa將用戶的語音查詢命令傳輸?shù)?a href='http://www.qzkangyuan.com/' target='_blank'>服務(wù)器,用于進(jìn)一步訓(xùn)練該工具。蘋果通過聘請朗讀者來閱讀特定的文本,教會Siri新的語言和方言,并讓人從服務(wù)器上的語音到文本轉(zhuǎn)換模型上轉(zhuǎn)錄寫語音片段。據(jù)報(bào)道,微軟已經(jīng)在世界各地設(shè)立了模擬公寓,以栩栩如生的環(huán)境中捕捉到的音頻片段來訓(xùn)練Cortanan 數(shù)字助理。
但是,以上所有這些都是私人公司持有的,通常不對學(xué)術(shù)界、研究人員或?qū)淼母偁帉κ珠_放。這就是為什么Mozilla決定推出其Common Voice項(xiàng)目。
“當(dāng)我們開始開發(fā)這些系統(tǒng)時(shí),我們發(fā)現(xiàn)我們可以在算法的基礎(chǔ)上建立其他人的作品,并在算法方面做自己的創(chuàng)新工作,但是對于所有這些,數(shù)據(jù)選擇,創(chuàng)建和聚合是一個挑戰(zhàn),“Mozilla新興技術(shù)高級副總裁肖恩·懷特(Sean White)說。 “如果你想做一個新的語音識別系統(tǒng),你不能到市場上隨便就能找到一個高質(zhì)量的數(shù)據(jù)集來使用。”
Common Voice 邀請所有具有互聯(lián)網(wǎng)連接和麥克風(fēng)的人通過網(wǎng)頁瀏覽器上的幾次點(diǎn)擊來提交他們自己閱讀特定句子的簡短記錄。這與谷歌的項(xiàng)目工作方式類似,雖然Common Voice要求人們提交完整的句子,而谷歌只要求錄入那些通常用作命令的特定單詞和數(shù)字。
這些句子是由志愿者提交的那些會話短語的混合,鄭州電信服務(wù)器 服務(wù)器托管,比如 -“她把充電器還給我了”是項(xiàng)目的GitHub文件中的一個,出自經(jīng)典電影Charade and It’s a Wonderful Life。 Mozilla還要求參與者提供一些基本的人口統(tǒng)計(jì)信息,如年齡,性別和英語方言區(qū)(例如美國英語,加拿大英語或英語,西印度群島和百慕大)。
該項(xiàng)目在首次開放的大約57天內(nèi)收集了大約307,000個錄音,每段約3至5秒。 Mozilla開放式創(chuàng)新團(tuán)隊(duì)數(shù)字戰(zhàn)略家Michael Henretty說,這使得總音頻的播放時(shí)間達(dá)到了 340 到 520小時(shí)。
他說:“我們已經(jīng)超越了TED演講,那是其中一個較大的開源數(shù)據(jù)集。
Mozilla的目標(biāo)是在今年晚些時(shí)候發(fā)布一個版本的數(shù)據(jù)集,希望能在這段時(shí)間內(nèi)擁有10,000小時(shí)的音頻,這個數(shù)字估計(jì)足以訓(xùn)練現(xiàn)代的生產(chǎn)質(zhì)量標(biāo)準(zhǔn)的系統(tǒng)。這遠(yuǎn)遠(yuǎn)超過谷歌剛剛提供的18小時(shí)的音頻剪輯數(shù)據(jù)庫。擁有大量和各種各樣的語音樣本的關(guān)鍵原因之一是使得在其上訓(xùn)練的算法避免了意想不到的偏見。因?yàn)槿魏我粋€嘗試使用語音助手的重口音的人都可以證明,這些系統(tǒng)在理解簡單的英語方面比別的更好。
谷歌收購的數(shù)據(jù)科學(xué)社區(qū) Kaggle 的數(shù)據(jù)準(zhǔn)備分析師 Rachael Tatman 在今年早些時(shí)候發(fā)表了一篇關(guān)于性別和方言如何影響 YouTube 自動化標(biāo)題準(zhǔn)確性的文章。她發(fā)現(xiàn) YouTube 自動標(biāo)題對于女性和蘇格蘭口音的演講不太準(zhǔn)確,但根據(jù)訓(xùn)練數(shù)據(jù)的使用情況,不同的系統(tǒng)可能會出現(xiàn)不同的錯誤模式。