并不是每個問題都可以通過機器學習來解決,并不是每個公司都準備應用人工智能。以下是如何知道你的IT組織是否準備好獲得人工智能的好處。
由于機器學習是靈丹妙藥,你的公司應該能夠有利地使用它,對嗎?也許是;也許不是。好吧,我只是拿靈丹妙藥開玩笑,這只是營銷炒作。我們來討論一下你是否擁有利用人工智能所需要的東西——如果你還沒有達到這個地步你該如何達到。
首先,你知道你想預測或發現的是什么嗎?你有足夠的數據來分析以建立預測模型嗎?你有需要定義和訓練模型的人和工具嗎?你是否已經有統計模型或物理模型為你提供預測的基準? 在此,我們將分解你讓你的人工智能(AI)和機器學習(ML)項目成功所需要的東西,討論其衍生后果,以幫助你確定貴組織是否真正準備好利用機器學習、深度學習和人工智能。
你有很多數據
充分的相關數據是預測和特征識別的必要條件。有了它,你可能會成功;沒有它,你不能成功。你需要多少數據?你考慮的因素越多,你需要的數據就越多,無論你進行普通的統計預測、機器學習或深度學習。
以預測銷售的常見問題為例,比如你下個月將在邁阿密銷售多少件海軍藍短袖上衣,以及在不擱死太多錢和倉儲空間的情況下,你在邁阿密商店和亞特蘭大倉庫需要多少庫存以避免欠交訂單。零售銷售季節性很強,因此你需要多年來積累的具有重要統計意義的月度數據,以便能夠糾正月度變化并建立年度趨勢——這只是針對標準時間序列分析。機器學習需要的數據比統計模型要多很多,而深度學習模型需要的數據量更是多得翻幾翻。
你可能構建的一個統計模型將分析你的連鎖店在全國超過五年的每月上衣銷售情況,并使用該匯總來預測下個月的總上衣銷售情況。這個數字可能在幾十萬(假設它是30萬)。那么你可以預測邁阿密的女襯衫銷售額占全國銷售額的百分比(假設為3%),并獨立預測藍色短袖上衣的銷售額占總襯衫銷售額的百分比(比如說是1%)。
該模型指出下個月在邁阿密約售出90件藍色短袖襯衫。你可以通過查看各種產品的同店銷售情況,對該預測進行合理性檢查,特別要注意與模型的預測有多大的差異。
現在,假設你想把天氣和時尚趨勢這樣的外部因素考慮進去。短袖襯衫在炎熱或暖和的日子是不是比涼爽和多雨的日子賣得更好?可能吧。你可以通過在模型中包含歷史天氣數據來測試,盡管使用時間序列統計模型可能有點笨拙,因此你可以嘗試使用決策森林回歸(decision forest regression),當你嘗試使用其它7 種用于回歸的機器學習模型(見上面的截圖),然后比較每個模型的“成本”(歸一化誤差函數),與去年的實際結果進行比較,以找到最佳模型。
海軍藍軍下個月的銷量會好于去年同期嗎?你可以查看海軍藍色服裝的每月銷售量,并預測年度時尚趨勢,歐洲主要代理 德國服務器,也許可以將其納入到你的機器學習模型中。
或者你可能需要根據你從時尚媒體所聽到的內容,將手動更正(亦稱“瞎猜”)應用到你的模型。(“以防萬一,讓我們將預測提高20%,”) 也許你想通過為這個預測創建一個深度神經網絡來做更好的事情。你可能會發現你添加的每一個隱藏層的都能將回歸誤差提高幾個百分點,直到無助于提高的程度。
報酬遞減的原因可能是因為在模型中沒有更多的特征可以識別,或者更有可能是因為沒有足夠的數據來支持更多的細化。
你有足夠的數據科學家
你可能已經注意到,一個人必須構建上面討論的所有模型。不,這不是將數據傾倒到料斗中并按下按鈕的問題。不管你使用什么工具,這需要經驗、直覺、編程的能力以及玩轉機器學習的過硬的統計學背景——盡管供應商可能會這樣宣稱。
某些供應商特別傾向于聲稱“任何人”或“任何企業角色”都可以使用其預先訓練的應用機器學習模型。如果模型完全適于手頭的問題,例如將正式的書面的魁北克法文翻譯成英文,這可能是真的,但是更常見的情況是,你的數據不適合現有的訓練有素的機器學習(ML)模型。由于你必須訓練該模型,你將需要數據分析師和數據科學家來指導培訓,而這種培訓比工程或科學更像是一門藝術。
關于招聘數據科學家的最奇怪的事情之一就是公布的要求,特別是與受聘者的實際技能相比。廣告經常這么寫道“招聘:數據科學家。科技工數類博士(STEM Ph.D.),加上20年的經驗。