中國IDC圈5月17日報道,我們所謂的呆板進(jìn)修可以有多種形式。而最純凈的形式則為闡明人員們提供了一組數(shù)據(jù)摸索東西、一個ML模子選擇、強(qiáng)大的辦理方案算法和一種利用辦理方案來舉辦預(yù)測的要領(lǐng)。亞馬遜、微軟、Databricks、谷歌和IBM的云處事產(chǎn)物都提供了預(yù)測API,使得闡明人員有了差異量的節(jié)制。而HPE的云大數(shù)據(jù)闡明平臺辦理方案Haven OnDemand則為二元分類問題提供了有限的預(yù)測API。
然而,并不是每一個呆板進(jìn)修的問題都必需從零開始辦理。某些問題可以通過對足夠大的樣本舉辦培訓(xùn),進(jìn)而獲得更遍及的合用。譬喻,語音到文本、文本到語音、文天職析和人臉識別往往是“罐裝”的辦理方案需要辦理的問題。故而,大量呆板進(jìn)修云處事提供商們通過API提供這類成果,答允開拓人員將其納入他們的應(yīng)用措施也就不敷為怪了。
這類處事將可以或許識別美式英語的發(fā)音(以及其他一些語言)并謄錄下來??墒牵豢罴榷ǖ奶幨聦Ω赌骋幻榷ǖ拇朕o人的詳細(xì)事情狀況將取決于措辭人是否混合方言、措辭人的口音、以及該辦理方案此前對付雷同的方言和口音的練習(xí)環(huán)境。微軟的Azure、IBM、谷歌和Haven OnDemand均提供了語音到文本的處事。
有很多范例的呆板進(jìn)修的問題。譬喻,回歸問題試圖通過其他調(diào)查來預(yù)測一個持續(xù)變量(如銷售);以及分類問題試圖預(yù)測一組既定視察的種別是否會下降(譬喻,垃圾郵件的數(shù)量)。亞馬遜、微軟、Databricks、谷歌、HPE和IBM均提供了相應(yīng)的東西以辦理一系列的呆板進(jìn)修方面的問題,雖然,某些東西包套件是比此外越發(fā)完整。
在這篇文章中,我將簡腹地與寬大讀者配合接頭這六款商用的呆板進(jìn)修辦理方案,個中有內(nèi)容會鏈接到五篇已經(jīng)頒發(fā)的之前由我所撰寫的完整版的測評文章。不幸的是,谷歌于本年三月份公布的基于云的呆板進(jìn)修東西和應(yīng)用措施遠(yuǎn)遠(yuǎn)在谷歌云呆板進(jìn)修的民眾可用性之前。
亞馬遜的呆板進(jìn)修
亞馬遜試圖讓呆板進(jìn)修可以或許更容易的讓一般平凡的普通用戶所可以或許打仗獲得。其旨在為那些相識正在被辦理的業(yè)務(wù)問題的闡明人員處事,不管這些闡明人員是否真正領(lǐng)略數(shù)據(jù)科學(xué)和呆板進(jìn)修算法。
凡是,在一般環(huán)境下,當(dāng)您回收亞馬遜呆板進(jìn)修時,首先需要整理數(shù)據(jù),并以CSV名目將您的數(shù)據(jù)上傳到S3;然后建設(shè)、培訓(xùn)和評估一款ML模子;最后通過建設(shè)批量處理懲罰或舉辦及時預(yù)測。在整個進(jìn)程中,每一步都是迭代的。呆板進(jìn)修并不是一副簡樸的、靜態(tài)的靈丹靈藥,縱然是對付亞馬遜的算法的選擇。
亞馬遜呆板進(jìn)修支持3種模子:二元分類、多類分類和回歸闡明,個中每種范例都有一種算法。為了進(jìn)一步的優(yōu)化,亞馬遜呆板進(jìn)修回收隨機(jī)梯度下降(Stochastic gradient descent,SGD),這使得多持續(xù)性越過了對每個樣品小批量練習(xí)數(shù)據(jù)和更新成果的權(quán)重,以最小化損失函數(shù)(loss function)。損失函數(shù)反應(yīng)了實際值和預(yù)測值之間的差距。梯度下降優(yōu)化事情只能在持續(xù)的、可區(qū)分的損失函數(shù)中很好地運(yùn)作,如邏輯函數(shù)僻靜方損失函數(shù)。
對付二元分類,亞馬遜呆板進(jìn)修回收邏輯回歸(邏輯損失函數(shù)加SGD)。
而對付多類分類,亞馬遜呆板進(jìn)修則利用多項邏輯回歸(多項邏輯損失加SGD)。
對付回歸闡明,亞馬遜呆板進(jìn)修回收線性回歸(平方損失函數(shù)加上SGD)。
在亞馬遜呆板進(jìn)修中培訓(xùn)和評估一個二元分類模子之后,您可以選擇本身的分?jǐn)?shù)閾值,以到達(dá)您所期望的錯誤率。在上圖中,我們已經(jīng)將默認(rèn)閾值增加了0.5,這樣我們就可以發(fā)生一組更強(qiáng)的銷售線索以實現(xiàn)市場營銷和銷售目標(biāo)。
亞馬遜呆板進(jìn)修從方針數(shù)據(jù)的范例抉擇呆板進(jìn)修所辦理的任務(wù)的范例。譬喻,借助數(shù)值方針變量預(yù)測問題便意味著回歸闡明;借助非數(shù)值方針變量預(yù)測問題時,假如只有兩個方針狀態(tài)其即是二元分類;假如有兩個以上的方針狀態(tài)即是多類分類。
在亞馬遜呆板進(jìn)修中對付成果的選擇有訣竅。一旦對數(shù)據(jù)源舉辦了描寫性統(tǒng)計,亞馬遜將建設(shè)一個默認(rèn)的要領(lǐng),該要領(lǐng)使得您可以在您的呆板進(jìn)修模子中利用或重寫包圍該數(shù)據(jù)。
一旦您有了一個切合您的評價要求的模子,您可以用它來成立一個及時的網(wǎng)絡(luò)處事,可能生成一個批處理懲罰的預(yù)測。然而,務(wù)須要記著的是,差異于物理常數(shù),人們的行為往往會隨時間而變革。您將需要按期查抄來自于您的模子的預(yù)測的精度指標(biāo),并按照需要從頭培訓(xùn)。
Azure呆板進(jìn)修
對比之下,較之亞馬遜的呆板進(jìn)修,微軟公司則試圖為有履歷的數(shù)據(jù)科學(xué)家們提供一種全品種的算法和東西。因此,Azure呆板進(jìn)修是更大的微軟Cortana闡明套件產(chǎn)物的一部門。Azure呆板進(jìn)修還具有一個拖曳界面,用于構(gòu)建模子練習(xí)和從模塊評估數(shù)據(jù)流。