首先讓我們來聊聊什么是大數據。大數據這個概念已經出來很多年了(超過 10 年),但一直沒有一個準確的定義(也許也并不需要)。數據工程師(DataEngineer)對大數據的理解會更多從技術和系統的角度去理解,而數據分析人員(Data Analyst)對大數據理解會從產品的角度去理解,所以數據工程師(Data Engineer) 和數據分析人員(Data Analyst)所理解的大數據肯定是有差異的。我所理解的大數據是這樣的,大數據不是單一的一種技術或者產品,它是所有與數據相關的綜合學科。看大數據我會從 2 個維度來看,一個是數據流的維度(下圖的水平軸),另外一個是技術棧的維度(下圖的縱軸)。
其實我一直不太喜歡張口閉口講“大數據”,我更喜歡說“數據”。因為大數據的本質在于“數據”,而不是“大”。由于媒體一直重點宣揚大數據的“大”,所以有時候我們往往會忽然大數據的本質在“數據”,而不是“大”,“大”只是你看到的表相,本質還是數據自身。
在我們講清楚大數據的含義之后,我們來聊聊大數據目前到底處在一個什么樣的位置。從歷史發展的角度來看,每一項新技術都會經歷下面這樣一個技術成熟度曲線。
當一項新技術剛出來的時候人們會非常樂觀,常常以為這項技術會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術一開始會以非常快的速度受到大家追捧,然后到達一個頂峰,之后人們開始認識到這項新技術并沒有當初預想的那么具有革命性,然后會過于悲觀,之后就會經歷泡沫階段。等沉寂一定階段之后,人們開始回歸理性,正視這項技術的價值,然后開始正確的應用這項技術,從此這項技術開始走向穩步向前發展的道路。(題外話,筆者在看這幅圖的時候也聯想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。
兩個重要階段是指過高期望的峰值和泡沫化的底谷期 。現在正處于穩步向前發展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數據大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然后慢慢走向下降通道(當然這張曲線并不會和上面這張技術成熟度曲線完全擬合,比如技術曲線處在下降通道有可能會使討論這項技術的搜索量增加)。
數據規模會繼續擴大,大數據將繼續發揚光大
前面已經提到過,大數據已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩步向前發展。做這樣判斷主要有以下 2 個原因:
上游數據規模會繼續增長,特別是由于 IOT 技術的發展和成熟,以及未來 5G 技術的鋪開。在可預測的未來,數據規模仍將繼續快速增長,這是能夠帶動大數據持續穩定向前發展的基本動力。
下游數據產業還有很多發展的空間,還有很多數據的價值我們沒有挖掘出來。
雖然現在人工智能,區塊鏈搶去了大數據的風口位置,也許大數據成不了未來的主角,但大數據也絕對不是跑龍套的,大數據仍將扮演一個重要而基礎的角色。可以這么說,只要有數據在,大數據就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數據的持續向上發展。
數據的實時性需求將更加突出
之前大數據遇到的最大挑戰在于數據規模大(所以大家會稱之為“大數據”),經過工業界多年的努力和實踐,規模大這個問題基本已經解決了。接下來幾年,更大的挑戰在于速度,也就是實時性。而大數據的實時性并不是指簡單的傳輸數據或者處理數據的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數據系統的實時性。所以大數據的實時性,包括以下幾個方面:
快速獲取和傳輸數據 快速計算處理數據 實時可視化數據 在線機器學習,實時更新機器學習模型
目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據以及在線機器學習方面會有更多優秀的產品涌現出來。當大數據的實時性增強之后,在數據消費端會產生更多有價值的數據,從而形成一個更高效的數據閉環,促進整個數據流的良性發展。
大數據基礎設施往云上遷移勢不可擋