數據中臺建設是一個宏大的工程,涉及整體規劃、組織搭建、中臺落地與運營等方方面面的工作,本節重點從物理形態上講述企業的數據中臺應該如何搭建。一般來講,企業的數據中臺在物理形態上分為三個大層:工具平臺層、數據資產層和數據應用層(見圖4-2)。
1. 工具平臺層
工具平臺層是數據中臺的載體,包含大數據處理的基礎能力技術,如集數據采集、數據存儲、數據計算、數據安全等于一體的大數據平臺;還包含建設數據中臺的一系列工具,如離線或實時數據研發工具、數據聯通工具、標簽計算工具、算法平臺工具、數據服務工具及自助分析工具。
(1) 數據開發平臺
大數據的4V特征[1]決定了數據處理是一個復雜的工程。建設數據中臺需要搭建建設數據中臺的基建工具,要滿足各種結構化、非結構化數據的采集、存儲與處理,要根據場景處理離線和實時數據的計算與存儲,要將一個個數據處理任務串聯起來以保障數據的運轉能賦能到業務端。
[1] 大數據的4V 指Volume(數據量大)、Variety(類型繁多)、Velocity(速度快,效率高)、Value(價值密度低)。
因此首先搭建一個大數據能力平臺是非常有必要的。當然,可根據企業實際情況來決定是外采還是自建平臺。
(2) 數據資產管理
數據中臺建設的成功與否,與數據資產是否管理有序有直接關系。前文提到,數據中臺是需要持續運營的。隨著時間的推移,數據不斷涌入數據中臺,如果沒有一套井然有序的數據資產平臺來進行管理,后果將不堪設想。
數據資產管理工具既能幫助企業合理評估、規范和治理信息資產,又可以發揮數據資產價值并促進數據資產持續增值。對于數據資產管理,我們不推薦事后管理,而要與數據研發的過程聯動。也就是說,當數據經過數據開發平臺加工的鏈路時,數據資產管理平臺就已經無聲無息地介入了。
數據資產管理的首要任務是管理好進入數據中臺的元數據,這里的元數據包括數據源、建設的各種模型、通過模型拆解出來的指標與標簽以及調度作業。有序管理這些數據資產的元數據是前提條件,只有做好了這一步,才能繼續對數據流向的追溯,才能對指標、標簽體系的生命周期進行管理,確定指標的使用頻率,決定是否下線。
(3) 標簽工廠
標簽工廠又稱標簽平臺,是數據中臺體系內的明星工具類產品。標簽建設是數據中臺走向數據業務化的關鍵步驟。因此,一個強大的標簽工廠是數據中臺價值體現的有力保障。
嚴格來說,標簽工廠也屬于數據開發平臺的一部分,為什么我們要把它單獨剝離出來講呢?這是因為標簽的使用場景豐富,標簽與業務結合得非常緊密;同時,標簽數據的存儲與分析型數據的存儲有一定的差異。
標簽工廠致力于屏蔽底層復雜的大數據框架,面向普通開發人員、數據分析師、運營人員提供友好的界面交互配置,完成標簽的全生命周期管理;同時,對上層業務系統提供自身API能力,與各業務系統形成數據閉環。
標簽工廠按功能一般分為兩部分:底層的標簽計算引擎與上層的標簽配置與管理門戶。標簽計算引擎一般會采用MapReduce、Spark、Flink等大數據計算框架,而計算后的標簽存儲可采用Elasticsearch或者HBase,這樣存儲的好處是便于快速檢索。
而標簽配置與管理門戶則支持通過配置標簽規則提交到標簽計算引擎,就能定時算出所需要的標簽。標簽配置和管理門戶還提供標準的標簽服務申請與調用。通過標簽工廠,數據中臺團隊可減少大量的數據開發工作。
(4) ID-Mapping
ID-Mapping又稱ID打通工具,directadmin授權,是數據中臺建設的可選項。可選不代表不重要,在一些多渠道、多觸點的新零售企業,離開了這個工具,數據質量將大打折扣。
舉個例子。消費者在逛街的時候看到一款剃須刀,掃了店內的二維碼,正準備下單購買時被朋友的電話中斷了。回到家,打開抖音又看到這個剃須刀的廣告,便立即打開鏈接下單購買了。
這樣的場景在生活中比比皆是,VPS,其中隱藏了很多的消費者信息,如果我們不去打通ID,那么可能至少會將同一個用戶當作4個用戶來處理。實際上可以將掃描二維碼記錄留下的OpenID、抖音注冊留下的微信號、下單提供的訂單手機號碼及注冊賬號等多條信息結合起來,判別是不是同一個人。這樣給這個消費者打標簽或者推薦商品就會更加精準。