談到數據倉庫,我們往往容易忽略“數據”兩個字,阿里云有著很多業務場景和業務體系,在這些數據應用之下我們如何管理數據的呢?數據倉庫是如何幫到我們以及它自身是如何演進的?
數據倉庫概念從1990年提出,經過了四個主要階段。從最初的數據庫演進到數據倉庫,到MPP架構,到大數據時代的數據倉庫,再到今天的云原生的數據倉庫。在不斷的演進過程中,數據倉庫面臨著不同的挑戰。
第一 啟動成本高、建設周期長,價值難以快速驗證
對于數倉的建設人員,面臨的挑戰是業務人員希望數倉建設周期能更短。而傳統數據倉庫往往要面臨從采購服務器,建立物理倉庫到邏輯倉庫等一個較長的周期,所以數據倉庫面臨的第一個挑戰就是怎樣去降低建設周期。
第二 如何處理多樣數據,擁抱新技術,充分挖掘數據價值
隨著大數據的到來,傳統數據倉庫管理的大多是結構化數據。如何對半結構化的數據進行統一全面的管理就成為傳統數據倉庫面臨的第二個挑戰。
第三 難以共享企業數據資產、數據創新成本高
數據倉庫更加強調管理和安全,在強調安全的情況下如何在組織里以及整個生態上下游中更好的共享和交換數據,成為了新的挑戰。例如在企業的部門間或業務間依然存在為數不少的數據孤島,數據共享成本高,缺乏企業級別的統一的數據獲取出口,由此導致數據消費方獲取數據困難,難于自助分析,嚴重依賴IT部門支持來滿足企業更廣泛的數據需求。
第四 平臺架構復雜、運營成本高
隨著數據處理種類的多樣化和數據量的不斷變大,不同的技術被疊加在一起從而使得數據倉庫架構變得越發復雜。同一企業里往往會同時存在各種技術類型的數據倉庫。所以如何簡化數據倉庫的架構也是面臨的一個重要挑戰。一般需要投入專業團隊負責管理復雜的數據平臺,同時對資源利用率不高的情況進行管理和治理。
第五 滿足業務需要的擴展性、彈性、靈活性
業務快速發展的企業,經常會有大促活動,補數據,處理非常規事件的需求,如何快速擴展數倉性能,提高業務峰谷的響應時效,也帶來很多挑戰。
對于傳統數據倉庫面臨的這些挑戰,在技術和業務的驅動下新型數據倉庫如何應對呢?這里可以看到六個主要的驅動力。
第一 我們希望有一個統一的數據平臺,能去連接,去存儲和處理多種數據。
第二 實時化,企業基于數據驅動能實時對業務作出支撐和決策的信息,這里有更高時效性的要求。
第三 數據量變得非常龐大,在海量數據中如何找到想要的數據,就需要有一張地圖,要對數據進行管理和治理。
第四 傳統數據倉庫中,數據的存儲采用集中的方式,一定要把數據集中在同一個存儲中。而在新的業務驅動下,需要去連接數據而不是統一存儲在一起。
第五 數據倉庫之上如何支持更多智能化的應用,信息化的業務以及業務的信息化等關系。這就是數倉智能化和智能化數倉的需求驅動力。
第六 數據領域的不同角色對數據平臺有著不同需求。例如數據工程師,數據分析人員,數據科學家等,他們對數據平臺的響應時間,處理速度,數據量,開發語言等有著不同的需求。所以更多的做好分析服務,成為數據管理平臺第六個驅動力。
據倉庫在不斷地演進過程中,從30年前的概念來看已經注入了更多新的內涵。對于新的內涵,我們可以從數據倉庫的基礎架構,directadmin授權,數據架構,數據分析以及服務模型四個角度來明顯看到云原生,湖倉一體,離線實時一體化、服務模型的SAAS化的演進趨勢。
云原生 — 數倉基礎架構的演進方向
云原生是數倉基礎架構的一個基本的演進方向。傳統數據倉庫是基于物理服務器或云上托管服務器的模式。而云原生的情況下可以更多去應用云的基礎服務,包括存儲服務,網絡服務以及更多的監控服務。這就意味著在云上用原生服務可以獲得云的自服務、彈性等能力,云數倉就可以更好的去集成更多的云上服務,包括如何把日志數據從各種數據源抽取到數據倉庫中,也包括如何進行全鏈路的數據管理和機器學習等。所以云原生往往包含了如何構建和如何與云上服務原生的集成。