數據倉庫為組織了解其歷史業務表現和推動持續運營提供了一個接入窗口,為數據分析師和業務用戶提供了諸如客戶行為、業務趨勢、運營效率和銷售等方面的信息。盡管出現了基于Hadoop和其他一些大數據技術的數據湖這一概念,但隨著公司越來越需要從更多不同的源系統收集和分析業務數據,這使得數據倉庫仍然具有其實用價值,甚至比以前更加重要。
但作為數據管理體系結構的一部分,在對數據倉庫平臺進行投資之前,首先還是要檢查您的組織是否真的需要一個數據倉庫平臺,以及通過實施部署,組織可以借此獲取哪些業務收益。相關的,您必須考慮不同的數據倉庫部署情況——在企業范圍內還是部門范圍內,在本地還是在云中。
您還需要確定,通常存儲在大數據系統中的非結構化和半結構化數據,是否會成為數據倉庫環境的組成部分,并確定是否將用于BI、企業報告和在線分析處理(OLAP)等應用的傳統數據倉庫,與數據處理和大數據分析管理集成在一起。最后,您必須將您的數據倉庫用例與最合適類型的數據倉庫平臺相匹配。
數據倉庫的一般概念非常簡單:從支持業務流程的操作系統中定期提取數據副本,并將其加載到單獨的存儲庫中,在該存儲庫中,數據將被合并,域名購買,然后可用于分析和報告。之后,業務用戶和分析師可以通過BI和分析工具、儀表板、入口和準備好的報告來訪問數據。
在下面這些情況下,數據倉庫可能更容易發揮其價值:
·公司在做出有效的商業活動報告方面遇到了難題,因為所需要的數據不容易獲得。
·不同部門和用戶組會將業務數據復制到電子表格中以進行分析,而這些電子表格并非總是相互一致的。
·數據質量和準確性的不確定性,導致企業高管和業務經理會質疑報告的準確性。
·針對生產數據庫的BI報告會每晚延遲,或在月底進行的交易數據處理,需要擴展處理窗口。
·在工作日對數據庫運行臨時查詢會降低操作系統的速度,從而影響內部用戶和客戶、供應商以及其他外部用戶。
一個正確數據倉庫實施策略可以幫助您的組織準確地回答有關業務運營的問題,如發生了什么、為什么。數據倉庫可將來自不同位置和來源的數據組合到中央存儲庫中,從而提高數據的可訪問性。當數據移至數據倉庫時,通常還會對其進行清理和轉換,以使其與分析一致,這將有助于提高查詢結果和報告中信息的質量。
此外,一旦數據倉庫部署完成并得到積極使用,由于BI、報告和分析活動已從生產數據庫中移出,運營工作流程可能會變得更有效率。
數據倉庫的部署
各個組織之間的數據倉庫環境可能會有很大差異。從體系結構的角度來看,部署可以遵循多個路徑——如一個企業數據倉庫(EDW),一組較小的數據集市,或這兩種方法的組合。
EDW包含來自企業操作系統的所有相關數據,并且可能包含一些從外部數據源收集的數據。它是用于BI和分析數據的單個統一存儲庫,可以在所有部門和業務部門中使用。因此,建立EDW通常是一項艱巨的任務,尤其是在大型企業中。
在EDW架構中,組織還可以在其操作系統和企業數據倉庫之間實施運營數據存儲(ODS)作為過渡步驟。將運營數據復制到ODS,然后提取并加載到數據倉庫中。ODS可以用作尚未經過轉換的、無法用于分析的數據的暫存區,同時可以用于運行近實時的查詢,這些查詢需要最新的業務運營的詳細相關數據,而不是數據倉庫中可用的數據。
數據集市是小型化的數據倉庫,專注于各個業務部門和職能領域。當需要滿足部門對BI的特定需求時,組織通常會選擇建立數據集市,并且優先考慮報告功能。數據集市不需要涵蓋整個企業的龐大項目,而是更加集中,并且可以更快地提供業務收益。
因此,數據集市的方法使組織可以通過一次處理一個業務的各個部分——而不是構建整體的EDW——以迭代方式開發數據倉庫體系架構。企業可以選擇部署一個或多個數據集市,具體取決于組織的規模和結構。
然后,決定組合采用這兩種方法的組織,可以將不同的數據集市彼此集成以創建虛擬EDW,或以物理方式填充一個EDW。另一種方式是,以EDW開始的組織可以將倉庫數據的子集提供給后來建立的數據集市,以此分離業務運營。
本地與云數據倉庫