導讀:大數據平臺可以分為操作數據存儲(ODS)、數據倉庫(DW)和數據集市(DM)三層,分別對應著數據清洗、數據管理和數據應用這三個核心功能。
▲數據架構示意圖
01 原始數據清洗
操作數據存儲(Operational Data Store,ODS),又被稱為貼源層,是原始數據經過ETL(Extract-Transform-Load)清洗后存儲的位置。ODS通常有如下幾個作用。
在業務系統和數據倉庫之間做了隔離,將業務系統產生的原始數據備份的同時,保證了兩個系統之間數據的一致性。
存儲了業務側的明細數據,方便后續的查詢和加工以及報表的產出。
完成數據倉庫中不能實現的一些功能,相比于DW和DM層通常使用Hive查詢,ODS一般利用更底層的編程語言加工而成,可以實現一些更復雜和更高效的ETL操作。
此外,ODS層保留了大量的歷史明細數據,通常約定只能增加不能修改,利用時間分區的方式進行區分。
02 數據倉庫管理
數據倉庫(Data Warehouse,VPS,DW)是企業級數據集中匯總的位置。DW層最大的特點是面向主題,根據不同的主題設計表的結構和內容,這樣做的好處是排除了與主題無關的冗余數據,提高了特定主題下的查詢和加工效率。
另一方面,數據倉庫作為連接原始數據和標簽之間的中間層,必須保證數據質量,包括唯一性、權威性、準確性等。
以風控主題為例,DW層中通常會包括授信、支用、還款、催收等一系列數據,方便后期相關標簽的計算。另外,還會有一些公用的維度表被存在與DW層平行的DIM層中,這些表通常是一些城市、日期類的字典數據,貫穿多個主題數據。
03 數據標簽應用
整個數據平臺的最上層是數據集市(Data Market,DM),也是與風控人員聯系最緊密的一層。顧名思義,數據集市就是將數據倉庫中的主題數據根據不同的業務需要挑選出來,構成特定的業務場景標簽。
例如想構建與客戶逾期表現相關的標簽,只需要將DW層中與還款相關的表抽取出來加工即可,這樣不僅結構清晰,還保證了標簽計算的效率。
由于DM層的數據標簽與業務聯系較為緊密,建議在DM層邏輯設計的初期,讓更多的業務人員參與進來,這樣才能避免后期技術與業務在標簽計算口徑上不統一的問題。
最后想補充說明的是,由于大數據平臺的計算鏈條較長,且充斥著大量的數據處理步驟,在實際生產中平臺的監控和預警機制至關重要,例如對于上下游依賴關系的判斷、每個時間分區數據量的監控、郵件和短信報警等,都是把控數據準確性和時效性的必要手段。
關于作者:蔡主希,亞洲服務器租用,研究生畢業于哥倫比亞大學統計專業,資深智能風控算法專家。現就職于某具有“全牌照”業務的綜合性國際化資產管理集團,負責人工智能算法在金融科技領域的研究和落地。曾任兩家頭部互聯網公司金融部門風控算法專家,以及北京大數據研究院金融研究員。