并不是每個(gè)問題都可以通過機(jī)器學(xué)習(xí)來解決,并不是每個(gè)公司都準(zhǔn)備應(yīng)用人工智能。以下是如何知道你的IT組織是否準(zhǔn)備好獲得人工智能的好處。
由于機(jī)器學(xué)習(xí)是靈丹妙藥,你的公司應(yīng)該能夠有利地使用它,對(duì)嗎?也許是;也許不是。好吧,我只是拿靈丹妙藥開玩笑,這只是營(yíng)銷炒作。我們來討論一下你是否擁有利用人工智能所需要的東西——如果你還沒有達(dá)到這個(gè)地步你該如何達(dá)到。
首先,你知道你想預(yù)測(cè)或發(fā)現(xiàn)的是什么嗎?你有足夠的數(shù)據(jù)來分析以建立預(yù)測(cè)模型嗎?你有需要定義和訓(xùn)練模型的人和工具嗎?你是否已經(jīng)有統(tǒng)計(jì)模型或物理模型為你提供預(yù)測(cè)的基準(zhǔn)? 在此,我們將分解你讓你的人工智能(AI)和機(jī)器學(xué)習(xí)(ML)項(xiàng)目成功所需要的東西,討論其衍生后果,以幫助你確定貴組織是否真正準(zhǔn)備好利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能。
你有很多數(shù)據(jù)
充分的相關(guān)數(shù)據(jù)是預(yù)測(cè)和特征識(shí)別的必要條件。有了它,你可能會(huì)成功;沒有它,你不能成功。你需要多少數(shù)據(jù)?你考慮的因素越多,你需要的數(shù)據(jù)就越多,無論你進(jìn)行普通的統(tǒng)計(jì)預(yù)測(cè)、機(jī)器學(xué)習(xí)或深度學(xué)習(xí)。
以預(yù)測(cè)銷售的常見問題為例,比如你下個(gè)月將在邁阿密銷售多少件海軍藍(lán)短袖上衣,以及在不擱死太多錢和倉(cāng)儲(chǔ)空間的情況下,你在邁阿密商店和亞特蘭大倉(cāng)庫(kù)需要多少庫(kù)存以避免欠交訂單。零售銷售季節(jié)性很強(qiáng),因此你需要多年來積累的具有重要統(tǒng)計(jì)意義的月度數(shù)據(jù),以便能夠糾正月度變化并建立年度趨勢(shì)——這只是針對(duì)標(biāo)準(zhǔn)時(shí)間序列分析。機(jī)器學(xué)習(xí)需要的數(shù)據(jù)比統(tǒng)計(jì)模型要多很多,而深度學(xué)習(xí)模型需要的數(shù)據(jù)量更是多得翻幾翻。
你可能構(gòu)建的一個(gè)統(tǒng)計(jì)模型將分析你的連鎖店在全國(guó)超過五年的每月上衣銷售情況,并使用該匯總來預(yù)測(cè)下個(gè)月的總上衣銷售情況。這個(gè)數(shù)字可能在幾十萬(假設(shè)它是30萬)。那么你可以預(yù)測(cè)邁阿密的女襯衫銷售額占全國(guó)銷售額的百分比(假設(shè)為3%),并獨(dú)立預(yù)測(cè)藍(lán)色短袖上衣的銷售額占總襯衫銷售額的百分比(比如說是1%)。
該模型指出下個(gè)月在邁阿密約售出90件藍(lán)色短袖襯衫。你可以通過查看各種產(chǎn)品的同店銷售情況,對(duì)該預(yù)測(cè)進(jìn)行合理性檢查,特別要注意與模型的預(yù)測(cè)有多大的差異。
現(xiàn)在,假設(shè)你想把天氣和時(shí)尚趨勢(shì)這樣的外部因素考慮進(jìn)去。短袖襯衫在炎熱或暖和的日子是不是比涼爽和多雨的日子賣得更好?可能吧。你可以通過在模型中包含歷史天氣數(shù)據(jù)來測(cè)試,盡管使用時(shí)間序列統(tǒng)計(jì)模型可能有點(diǎn)笨拙,因此你可以嘗試使用決策森林回歸(decision forest regression),當(dāng)你嘗試使用其它7 種用于回歸的機(jī)器學(xué)習(xí)模型(見上面的截圖),然后比較每個(gè)模型的“成本”(歸一化誤差函數(shù)),與去年的實(shí)際結(jié)果進(jìn)行比較,以找到最佳模型。
海軍藍(lán)軍下個(gè)月的銷量會(huì)好于去年同期嗎?你可以查看海軍藍(lán)色服裝的每月銷售量,并預(yù)測(cè)年度時(shí)尚趨勢(shì),歐洲主要代理 德國(guó)服務(wù)器,也許可以將其納入到你的機(jī)器學(xué)習(xí)模型中。
或者你可能需要根據(jù)你從時(shí)尚媒體所聽到的內(nèi)容,將手動(dòng)更正(亦稱“瞎猜”)應(yīng)用到你的模型。(“以防萬一,讓我們將預(yù)測(cè)提高20%,”) 也許你想通過為這個(gè)預(yù)測(cè)創(chuàng)建一個(gè)深度神經(jīng)網(wǎng)絡(luò)來做更好的事情。你可能會(huì)發(fā)現(xiàn)你添加的每一個(gè)隱藏層的都能將回歸誤差提高幾個(gè)百分點(diǎn),直到無助于提高的程度。
報(bào)酬遞減的原因可能是因?yàn)樵谀P椭袥]有更多的特征可以識(shí)別,或者更有可能是因?yàn)闆]有足夠的數(shù)據(jù)來支持更多的細(xì)化。
你有足夠的數(shù)據(jù)科學(xué)家
你可能已經(jīng)注意到,一個(gè)人必須構(gòu)建上面討論的所有模型。不,這不是將數(shù)據(jù)傾倒到料斗中并按下按鈕的問題。不管你使用什么工具,這需要經(jīng)驗(yàn)、直覺、編程的能力以及玩轉(zhuǎn)機(jī)器學(xué)習(xí)的過硬的統(tǒng)計(jì)學(xué)背景——盡管供應(yīng)商可能會(huì)這樣宣稱。
某些供應(yīng)商特別傾向于聲稱“任何人”或“任何企業(yè)角色”都可以使用其預(yù)先訓(xùn)練的應(yīng)用機(jī)器學(xué)習(xí)模型。如果模型完全適于手頭的問題,例如將正式的書面的魁北克法文翻譯成英文,這可能是真的,但是更常見的情況是,你的數(shù)據(jù)不適合現(xiàn)有的訓(xùn)練有素的機(jī)器學(xué)習(xí)(ML)模型。由于你必須訓(xùn)練該模型,你將需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來指導(dǎo)培訓(xùn),而這種培訓(xùn)比工程或科學(xué)更像是一門藝術(shù)。
關(guān)于招聘數(shù)據(jù)科學(xué)家的最奇怪的事情之一就是公布的要求,特別是與受聘者的實(shí)際技能相比。廣告經(jīng)常這么寫道“招聘:數(shù)據(jù)科學(xué)家。科技工數(shù)類博士(STEM Ph.D.),加上20年的經(jīng)驗(yàn)。