很長一段時間,BI和數據倉庫幾乎都是如影隨形、難舍難分。企業如果想要實行“數據驅動決策-決策推動業務發展”的機制,就必須先有數據倉庫充當中央存儲庫,供BI查詢和調取,然后再在BI上進行數據的分析與可視化。
但數據分析和商業決策發展至今,企業想要實現數據驅動決策,是否還是無法繞過數據倉庫?在現代商業環境中重新定義BI和數據倉庫,我們又能不能找到合適的替代方案?
今天,我們就這個命題展開討論,希望能給大家提供一些思路。
數倉:BI背后的引擎(或管道)
數據倉庫:從字面意義上即數據的倉庫,是為了把操作型數據集成到統一的環境中,以提供決策型數據訪問。數據倉庫關注的是解決數據一致性,可信性,集合性.......這些問題,把越來越復雜的業務數據轉化成對于業務運營、業務分析來說簡單易用的數據形式;數據倉庫的終極目標是讓數據應用人員(無論是CEO還是普通分析師)思考怎么使用數據倉庫里的這些數據,亞洲服務器,創造更多的信息與價值;而不是發愁數據在哪里,數據對不對。
BI(商業智能):BI是分析數據并獲取洞察力、從而幫助企業做出決策的一系列方法、技術和軟件。相比數據倉庫,BI中還包含了數據挖掘,數據可視化,多維分析,標簽分類等方面。拿多維分析舉個例子,數據倉庫中只是提供了維度化的數據,但是基于某些工具,比如Ebay的kylen或者IBM的Cognos等,可以支持用戶在一定范圍內任意組合維度與指標,那這就上升到了決策支持的層面而不是“高級數據倉儲”層面了,也就是使用了數據倉庫的數據,但不是數據倉庫的功能。
BI與數據倉庫的相關性(圖片來源于網絡)
傳統BI項目的構建路徑決定了其必須依賴數據倉庫才能進行數據分析。比如MicroStrategy,SAP BW,微軟 Analysis Server, IBM的Cognos,美國站群服務器,Oracle的OBIEE,這些傳統BI工具不具備使數據集成標準化的能力,數據倉庫的存在就是幫助他們建立數據治理結構,解決數據冗余、不一致、錯誤、無法輕松訪問等問題。
另一方面,BI對數據倉庫的這種依賴其實存在著極大的缺陷。一般來說,數據倉庫通常需要花費高經濟成本、時間成本從規劃到落地,但創造的價值大多數情況比較有限,ROI較低。搭建成功后,數據倉庫也僅支持極少數特定類型的分析,如果企業業務出現調整或者需要處理新類型的數據,屆時又將重新面臨重大的開發工作。
在如今轉向服務導向架構(SOA)(*由Gartner提出,以“服務”為基本元素來組建企業IT架構的方式。SOA要解決的主要問題是:快速構建與應用集成,現已成為解決企業業務發展需求與企業IT支持能力之間矛盾的最佳方案。)的技術大背景中,耗費巨大心力進行大規模的數據整合和數據集成操作是否還有必要?構建數倉的收益是否能大于你將付出的成本?
再加上企業數據體量不斷提升,業務發展越來越迅速,對快速印證分析決策也提出了更高要求,更多的企業希望能夠降低技術設施成本,做到近乎實時地訪問操作源數據,在極短的時間內響應用戶請求。
數據倉庫和BI的體系結構(圖片來源于網絡)
于是我們看到了越來越多沒有數倉的BI項目。一方面,敏捷BI的興起,允許用戶快速接入各類數據源,無需借助數倉即可實現數據導入-處理-分析的流程。而另一方面,新一代AI+BI智能數據分析平臺,則在快速接入、敏捷分析的基礎上,實現了更進一步的應用:
自帶輕量的分布式數據存儲與數據流處理模塊,提供從數據抽取、數據建模、數據分析,到數據可視化、預警分發的一站式數據分析應用能力; 即便不抽取數據,也可實現多數據源的聯邦動態分析(聯動、鉆取、動態參數等交互分析功能)。
在這個角度上來看,一定程度上可以在沒有數據倉庫的前提下實現智能數據分析,但是,這僅限于數據量有限的中小型企業,不意味著我們推薦直接拿數據分析平臺上的數據存儲當做數據倉庫來用。