隨著大數據的重要性和接受度的提高,人們也越來越需要考慮如何組織和托管大數據。答案之一是數據湖,在數據準備和組織方面最廣泛的數據體系結構系統。
簡單地說,它允許企業首先存儲數據,然后在需要時檢索數據。就像一個存儲單元,香港服務器租用,你只是把你的東西存儲,并在未來需要的時候找出來。
這種方法與傳統的數據倉庫截然不同,傳統的數據倉庫需要對數據進行結構化,且通常在記錄數據之前采用類似表格的形式。數據倉庫是一種固定形式的解決方案,它不是敏捷的,同時意味著額外的重新配置成本。但迄今為止,它一直是全球企業的首選。
削減成本
因為在存儲數據之前不需要設計數據的模式,所以沒有前期的開發費用。且處理數據湖的Hadoop系統是開源的,因此沒有額外的軟件許可成本。
與傳統數據倉庫的不同之處在于,有了數據湖,ETL階段就完全沒有了。您不必知道存儲在湖中的數據類型或者有多少字段。刪除ETL過程意味著沒有與許可、維護或增長數據結構相關的成本。
敏捷性
添加新單元或單個新項目可能會改變現有的整個數據結構,從而引發額外的成本。此外,進行這些更改所需的實現時間可能從幾天到幾周不等。
在數據湖中,所有的數據都已經存儲,并且只有很少的變化,您可以隨時查詢。
這種方法幫助企業在當今不斷變化的數據世界中保持敏捷性。未來幾年里可能會出現新的數據格式,其中一些甚至是現在還無法預見的。因此,企業數據存儲系統需要足夠靈活,在不進行重大結構更改的情況下滿足所有既定和突發要求。
多種格式
數據湖可以處理各種數據格式。即使數據湖中的一些數據看起來與其他數據無關,但從整體的角度進行組合和分析時,它可以提供基本的業務見解。
例如,如果一個數據湖包含關于客戶的記錄,比如姓名、年齡、去年的支出,以及客戶在網上商店的行為統計圖,很難看出這些細節和銷售線索之間的直接聯系。然而,,把所有的東西放在一起,可以發現一定年齡的客戶往往會更快地做出購買決定,這可能會影響銷售策略。
除了多種格式,還有關于數據源的上下文透視圖。最常見的資源包括面向客戶的應用程序、BI應用程序、銷售日志等。物聯網的興起將增加數據源和格式的數量,使數據湖成為唯一可靠的解決方案。
人工智能
由于數據湖使用非結構化數據,因此不適合使用傳統的基于sql的工具進行查詢。相反,由于大多數數據都具有合適的3v(體積、速度、多樣性),因此可以將其視為大數據并用于訓練人工智能算法。
實際上,擁數據湖的目標是讓信息實時(或幾乎實時)準備好進行處理。這種動態的方法為公司提供了立即反應的機會。將所有數據放在同一個位置意味著在分析之前檢索數據的時間更少。
靈活性和規模
數據湖最典型的特性可能是其可伸縮性和靈活性,它可以適應企業數據的任何變化,而不需要對基礎設施進行重大更改。由于整個架構是基于云的,通常通過按使用量付費的業務模型進行訪問,所以任何升級或降級都意味著只需更改您的支付計劃。
這種靈活性與不能實時修改的遺留系統形成了對比。數據湖可以很容易地添加或合并數據。就像是現實中的湖泊,它可以由多條河流匯集,并且可以隨時添加新的河流,而不會干擾之前的設置。與此同時,遺留系統就像一個裝水設施,任何改變都需要更多的瓶子、更多的標簽和重新安排時間。
局限
盡管數據湖有很多優勢,但也并不是萬無一失的解決方案,也絕對不是萬能藥。數據湖最大的風險在于,它們可能會變成數據沼澤,數據可能會被毫無意義地丟棄。
所有保存的數據流都應該與項目中的kpi和業務目標相結合。避免信息癱瘓的一種方法是創建可視化儀表板,通過儀表板,數據可以被正確顯示,即使不是數據庫學家也可以理解數據。
【凡本網注明來源非中國IDC圈的作品,均轉載自其它媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責?!?/p>