中國IDC圈5月17日報道,我們所謂的呆板進修可以有多種形式。而最純凈的形式則為闡明人員們提供了一組數據摸索東西、一個ML模子選擇、強大的辦理方案算法和一種利用辦理方案來舉辦預測的要領。亞馬遜、微軟、Databricks、谷歌和IBM的云處事產物都提供了預測API,使得闡明人員有了差異量的節制。而HPE的云大數據闡明平臺辦理方案Haven OnDemand則為二元分類問題提供了有限的預測API。
然而,并不是每一個呆板進修的問題都必需從零開始辦理。某些問題可以通過對足夠大的樣本舉辦培訓,進而獲得更遍及的合用。譬喻,語音到文本、文本到語音、文天職析和人臉識別往往是“罐裝”的辦理方案需要辦理的問題。故而,大量呆板進修云處事提供商們通過API提供這類成果,答允開拓人員將其納入他們的應用措施也就不敷為怪了。
這類處事將可以或許識別美式英語的發音(以及其他一些語言)并謄錄下來??墒?,一款既定的處事對付某一名既定的措辭人的詳細事情狀況將取決于措辭人是否混合方言、措辭人的口音、以及該辦理方案此前對付雷同的方言和口音的練習環境。微軟的Azure、IBM、谷歌和Haven OnDemand均提供了語音到文本的處事。
有很多范例的呆板進修的問題。譬喻,回歸問題試圖通過其他調查來預測一個持續變量(如銷售);以及分類問題試圖預測一組既定視察的種別是否會下降(譬喻,垃圾郵件的數量)。亞馬遜、微軟、Databricks、谷歌、HPE和IBM均提供了相應的東西以辦理一系列的呆板進修方面的問題,雖然,某些東西包套件是比此外越發完整。
在這篇文章中,我將簡腹地與寬大讀者配合接頭這六款商用的呆板進修辦理方案,個中有內容會鏈接到五篇已經頒發的之前由我所撰寫的完整版的測評文章。不幸的是,谷歌于本年三月份公布的基于云的呆板進修東西和應用措施遠遠在谷歌云呆板進修的民眾可用性之前。
亞馬遜的呆板進修
亞馬遜試圖讓呆板進修可以或許更容易的讓一般平凡的普通用戶所可以或許打仗獲得。其旨在為那些相識正在被辦理的業務問題的闡明人員處事,不管這些闡明人員是否真正領略數據科學和呆板進修算法。
凡是,在一般環境下,當您回收亞馬遜呆板進修時,首先需要整理數據,并以CSV名目將您的數據上傳到S3;然后建設、培訓和評估一款ML模子;最后通過建設批量處理懲罰或舉辦及時預測。在整個進程中,每一步都是迭代的。呆板進修并不是一副簡樸的、靜態的靈丹靈藥,縱然是對付亞馬遜的算法的選擇。
亞馬遜呆板進修支持3種模子:二元分類、多類分類和回歸闡明,個中每種范例都有一種算法。為了進一步的優化,亞馬遜呆板進修回收隨機梯度下降(Stochastic gradient descent,SGD),這使得多持續性越過了對每個樣品小批量練習數據和更新成果的權重,以最小化損失函數(loss function)。損失函數反應了實際值和預測值之間的差距。梯度下降優化事情只能在持續的、可區分的損失函數中很好地運作,如邏輯函數僻靜方損失函數。
對付二元分類,亞馬遜呆板進修回收邏輯回歸(邏輯損失函數加SGD)。
而對付多類分類,亞馬遜呆板進修則利用多項邏輯回歸(多項邏輯損失加SGD)。
對付回歸闡明,亞馬遜呆板進修回收線性回歸(平方損失函數加上SGD)。
在亞馬遜呆板進修中培訓和評估一個二元分類模子之后,您可以選擇本身的分數閾值,以到達您所期望的錯誤率。在上圖中,我們已經將默認閾值增加了0.5,這樣我們就可以發生一組更強的銷售線索以實現市場營銷和銷售目標。
亞馬遜呆板進修從方針數據的范例抉擇呆板進修所辦理的任務的范例。譬喻,借助數值方針變量預測問題便意味著回歸闡明;借助非數值方針變量預測問題時,假如只有兩個方針狀態其即是二元分類;假如有兩個以上的方針狀態即是多類分類。
在亞馬遜呆板進修中對付成果的選擇有訣竅。一旦對數據源舉辦了描寫性統計,亞馬遜將建設一個默認的要領,該要領使得您可以在您的呆板進修模子中利用或重寫包圍該數據。
一旦您有了一個切合您的評價要求的模子,您可以用它來成立一個及時的網絡處事,可能生成一個批處理懲罰的預測。然而,務須要記著的是,差異于物理常數,人們的行為往往會隨時間而變革。您將需要按期查抄來自于您的模子的預測的精度指標,并按照需要從頭培訓。
Azure呆板進修
對比之下,較之亞馬遜的呆板進修,微軟公司則試圖為有履歷的數據科學家們提供一種全品種的算法和東西。因此,Azure呆板進修是更大的微軟Cortana闡明套件產物的一部門。Azure呆板進修還具有一個拖曳界面,用于構建模子練習和從模塊評估數據流。