當今時代,數據已經成為我們經營業務的核心手段。事實上,據全球市場情報公司IDC預計,到2020年,全球花費在數據分析項目上的支出將達到2743億美元。然而,其中的大部分錢并沒有得到合理地利用。據高德納咨詢公司(Gartner)的分析師尼克?赫爾德克的估算,高達85%的大數據項目是失敗的。 問題的重點在于,出現在電腦屏幕上的數字具有一種特殊的權威感。一旦數據通過大量的數據庫被提取出來,并通過復雜的分析軟件進行分析,我們就幾乎不再會去關心這些數據究竟來自哪里,它們究竟是如何被修正的,更不會去關心它是否真正適用于我們的研究目標了。
因此,實際上,要想從數據中得到有用的答案,我們便不能只看到它表面的數據值。我們需要學會如何提出更加深層的問題。我們尤其需要知道這些數據是如何得出的,我們用了什么樣的模型來分析它們,以及在這一分析過程中究竟遺漏了什么。最重要的是,我們需要超越僅僅使用數據來優化操作程序的做法,并學會利用數據來構思新的生產可能性。
我們要問的第一個問題是:
一、數據是如何得出的?
據說,數據一詞是“奇聞軼事”的復數形式。英語中有一句俚語,叫“很多奇聞軼事聚在一起就成了數據”。的確,真實世界的各種事件,如交易記錄、診斷結果和其他諸多相關信息,都被一一記錄下來,并存儲在大型服務器之中,這就是數據。但幾乎沒人會關注這些數據究竟來自哪里,因此,非常不幸的是,我們收集到的數據的質量和處理方式可能會有很大差別。事實的確如此,高德納咨詢公司最近的一項研究揭示出,由于收集到的數據質量太差,每個公司平均損失竟然高達1500萬美元。 一般來說,數據的準確性會受到人為錯誤的影響,例如當低工資和動力不足的零售職員檢查庫存時,他們收集到的數據就往往并不準確。然而,即使數據收集過程是自動化的,也仍然會有很多的錯誤來源,比如手機信號塔的間歇性停電就會造成錯誤;在金融交易清算過程中運用自動化的信息收集方式同樣可能產生錯誤。 質量過差的數據和用于錯誤語境的數據可能比根本沒有數據更為糟糕。事實上,一項研究發現,65%的零售商庫存數據是不準確的。而自歐盟通過并發行了嚴格的GDPR(通用數據保護條例)數據標準以來,另一個日益重要的問題逐漸浮現:在收集數據時是否得到當事人適當的同意。 因此,不要簡單地認為你所擁有的數據是準確的和高質量的。你首先必須關心它是從哪里得來的,以及它是如何維護的。我們越來越需要像做金融交易一樣,小心謹慎地審查我們的數據處理方式。
二、數據是如何分析的?
即使數據得到了準確和良好的維護,數據分析模型的質量也會有很大差異。一般而言,各種數據分析模型是通過開源平臺(如GitHub)組合在一起,并要為特定的分析任務進行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關心它究竟是如何評估特定的數據集合的了。 類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴重的損失。我們可以回顧一下如下案例:曾經有兩位著名的經濟學家發表了一份工作報告,警告說美國債務即將面臨一個關鍵的節點。他們的工作引發了一場政治風暴,但事實證明,他們犯了一個簡單的Excel錯誤,導致他們夸大了債務對GDP的影響。這就是對數據處理方式的失誤造成的。 隨著數據處理模型變得越來越復雜,并納入了更多的數據來源,我們也越來越能看到,在數據模型的訓練上不斷出現更為嚴重的問題。最常見的錯誤之一是過度擬合,這大體意味著,用來創建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數據會導致數據泄漏,在數據泄露中,訓練數據和測試數據攪和在一起了。 這些類型的錯誤甚至會困擾最為先進的公司。對此我們僅僅舉出兩個最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關的丑聞被高度曝光了。當我們處理數據時,我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數據是否真實地反映現實世界中發生的事情?
三、數據無法告訴我們什么?
數據模型,就像人類一樣,它們總是傾向于根據最可用的信息來做出判斷。但是,有時你所缺失的數據往往會像你所擁有的數據一樣影響你的決策。我們通常將這種類型的可用性偏差與人類決策聯系起來,但人類設計者往往將這種偏差傳遞給自動化系統。 例如,在金融業中,云主機租用,那些擁有大量信貸歷史的人往往比那些沒有信貸歷史的人更容易獲得信貸。后者通常被稱為“瘦檔案”客戶,他們發現自己很難買車,很難租賃房屋,也很難申請到信用卡。(我們中的一員,一位名叫格雷格的同事,在海外生活15年后回到美國時,就曾親身經歷了這個問題)。 然而,缺少信貸歷史并不必然表明信用風險很高。而信貸公司最終往往僅僅因為缺乏相關數據而放棄潛在的盈利客戶。最近,益百利公司開始通過應用Boost程序來解決這一難題,該程序通過查詢消費者的日常支付活動來使消費者獲得信用評分,比如定期的電信充值和公共事業支付等等。迄今為止,已有數百萬人在該程序上登記注冊了。 因此,要問一問你的數據模型可能遺漏哪些方面,這個問題是極其重要的。如果你正在管理你所測量的數據,你就要確保你所測得的數據真實地反映了現實世界,香港服務器租用,而不只是一些最容易收集的僵死的數據。
四、我們如何利用數據重新設計產品和商業模式?