企業在推行大數據項目時往往把項目規模和范圍做得很大,但是事實卻是,很多大數據項目通常都會失敗。2016年,Gartner估算約60%的大數據項目都會失敗。一年后,Gartner分析師Nick Heudecker表示,這個數據“過于保守”,大數據項目失敗率應接近85%。直至現在他也是這樣認為的。
并不只有Gartner這樣認為。前微軟高管Bob Muglia告訴分析網站Datanami,“我找不到完全滿意的Hadoop客戶。實際上,成功應用Hadoop的客戶數量可能少于20個,甚至可能少于10個。考慮到其存在時間以及行業投入,這個結果很令人震驚。
熟悉大數據的人都知道,這個問題是真實且嚴重的,而不完全是技術問題。事實上,相對于本質原因,技術是失敗的次要原因。以下是大數據項目失敗的四個主要原因,以及可以成功的四種方式。
大數據問題1:整合不佳
Heudecker表示,大數據失敗背后存在著一個重要的技術問題,那就是整合多個來源的孤立數據,以實現企業所需的數據處理能力。建立與孤立傳統系統的連接并不容易。他說,整合成本是軟件成本的五到十倍。其中最大的問題是簡單集成:如何將多個數據源鏈接在一起?很多人選擇數據湖路線,認為這個方式很簡單,但事實并非如此。
孤立數據是問題的一部分。客戶告訴他,當他們將數據從系統提取到像數據湖這樣的公共環境中后,卻無法弄清楚這些值的含義。“當你將數據輸入數據湖時,怎么知道數字3意味著什么?”Heudecker問道。
普華永道(PwC)高級研究員Alan Morrison表示:“由于是在孤島中工作,或者創建的數據湖只是數據沼澤,所以他們能完成的工作只是冰山一角。”“他們不理解數據中的關系,這些關系需要挖掘或推斷,以便機器能夠充分解釋這些數據。另外,他們需要創建一個知識圖層,以便機器能夠解釋下面映射的所有實例數據。否則,美國服務器租用,數據湖只能是一個數據沼澤,”
大數據問題2:不明確的目標
大多數人以為企業在進行大數據項目時會有明確的目標,但實際并不是這樣的。很多公司通常是先啟動項目,然后才去想目標。
數據集成軟件公司Talend的產品營銷經理Ray Christopher表示,“你必須認真審視這個問題。人們認為他們可以將結構化和非結構化數據連接起來,從而獲得所需的信息。然而這必須提前確定目標,你想要什么樣的信息?”
企業應用咨詢公司的首席分析師Joshua Greenbaum表示,困擾大數據和數據倉庫項目的部分原因是指導標準通常是大量數據的積累,而不是解決業務問題。
Greenbaum說,“如果將大量數據匯總在一起,就會得到數據轉儲,可以稱之為衛生垃圾填埋場。這不是尋找解決方案的好方法。我一般建議客戶先決定需要優先解決哪些業務問題,然后查看可用數據的質量,并在發現業務問題后解決數據問題。”
為什么大多大數據項目都失敗了?對于初學者來說,大數據項目領導者都缺乏遠見。Morrison這樣認為。大多數企業只考慮數值數據或黑盒子NLP和識別引擎,并進行簡單的文本挖掘和其他類型的模式識別。
大數據問題3:技能差距
很多時候,公司認為他們為數據倉庫建立的內部技能將轉化為大數據,而事實并非如此。 對于初學者來說,數據倉庫和大數據以完全相反的方式處理數據:數據倉庫在寫入時執行模式,這意味著數據在進入數據倉庫之前就會被處理和組織。
在大數據中,積累數據并應用讀取模式,數據在讀取時進行處理。因此,如果數據處理從一種方法轉向另一種方法,技能和工具應該也是如此。
“技能永遠是一個挑戰。如果我們30年后談論大數據,仍然會面臨挑戰。“很多人都依賴Hadoop。但Spark更好一些,因為棧更小也更容易訓練。”
大數據問題4:技術代溝
大數據項目經常從舊的數據豎井中提取數據,并試圖將它們與新的數據源(如傳感器、網絡流量或社交媒體)合并。這并不完全是企業的錯,企業在大數據分析出現之前就收集了這些數據,但無論如何,這也是一個問題。
Greenbaum認為,企業缺少的最大技能是如何融合這兩個數據源,讓他們共同解決復雜問題。數據孤島可能成為大數據項目的障礙,因為它沒有任何標準。因此,當企業開始規劃時,發現這些系統尚未以任何方式實施,所以這些數據將被重復使用。