維克多在2012年出版的《大數據時代》一書中曾預測:數據列入企業資產負債表只是時間問題。如今,伴隨著新興科技手段的融合創新,大數據已經應用到了我們生活中的方方面面,數據資產的概念已逐漸得到國內外企業的強烈認同。
但是,數據和企業資產可以直接劃等號嗎?實際情況是,沒有經過系統管理和規劃治理的數據集群,不僅很難為企業創造實際效益,而且還將帶來權限混亂、計算能力下降、冗余存儲計算、資源浪費等問題,使整個數據集群處于“亞健康”狀態。
那么,是否有正本清源的應對方案呢?聯通大數據有限公司技術部負責人李大中日前在2019大數據產業峰會-大數據前沿技術論壇進行分享,他以《聯通大規模數據集群治理實踐》為主題,分享運營商在數據資產管理方面的經驗和對策。
下文為李大中演講內容整理:
聯通大數據有限公司承擔著聯通大數據能力建設和對外服務運營職能,目前平臺存儲容量達100PB,Hadoop集群超過6000個節點,數據模型數量達2000余個。作為運營商在數據治理過程中,既要面對大數據量的實時處理需求,也必須從成本角度考慮集群算力配置、安全合規等方面的要求。大數據是一個高成本行業,集群算力成本是其中主要部分。
通過參考行業的治理經驗,并結合公司業務和組織架構特點,我們總結出了一套適合公司業務發展的數據資產管理體系,也就是“疏整促+巡山+DataValue”數據資產管理體系:基于“疏整促”工程構建的全生命周期數據管控治理體系,基于“巡山”工程構建的大規模集群治理體系,基于“DataValue”工程實現對外數據價值經營,三大工程同步推進,形成數據治理+集群治理+數據價值的整體協同效應。
在實際執行中,“巡山”工程作為 切入點首先啟動,效果也最為明顯。在大規模集群計算環境處于亞健康的狀態下,免備案主機,我們將治理工作分解為兩階段:首要任務是解決亞健康問題,即保障集群資源算力可用、確保集群穩定性、業務連續性;長期和更為重要任務是保持健康狀態,即持續有效的監督數據治理工程的效果。
關于大規模數據集群治理的推進方法論,由于集群治理涉及到從采集、清洗到模型加工,從平臺運維崗到產品開發崗,幾乎涵蓋了公司的整個技術線和產品線上百人工作內容,所以采用自上而下的頂層設計的方式是不現實的,我們采用的是自下而上、自發協同、精益推進式的數據集群治理文化。從發現問題點入手,由點帶面找到原因、制定解決策略并建立相應的監督點,最終逐漸形成體系;通過某幾個環節治理成果顯性化,帶動整個公司生產組織體系逐漸形成治理文化。
在治理過程中,站群服務器,針對我們遇到過的幾個重要的點向大家介紹一下思路:
1. HDFS&YARN作業深度監控
針對小文件過多、文件量過大、耗資源大等情況,聯通大數據通過自主研發一套統一元數據實時采集平臺對Fsimage和EditLog進行反序列化解析,實時批量獲取資源隊列信息、文件目錄、作業任務信息等內容,通過多維關聯畫像洞察疑似異常作業,推動作業優化和監控優化效果。最終集群文件數量從接近8000萬下降為3000萬,平均文件大小提升4倍。集群資源負載從每天幾乎處于打滿狀態,下降為不到70%。每年節約固定資產投入上千萬元。
2. RPC請求和關鍵服務預警
針對集群RPC經常出現請求延時過大,甚至達到秒級,導致集群處于停擺不可用狀態,通過采集JMX指標、服務連接數、堆棧信息、GC等信息進行關聯畫像,并下鉆洞察相關作業,精準定位待優化作業。優化后集群RPC請求延時大幅減少,下降為毫秒級別。
3. 重復加工/冗余計算挖掘
針對數據重復加工、冗余計算等情況,估計大家的系統中或多或少都存在,這種情況直接導致資源被浪費。我們通過對HDFS JOB BINARY FILE分析,定位疑似冗余計算作業,這種方式同組織架構復雜度無關、不依賴上層業務輸入,其核心思想就是通過提取出具有相同輸入路徑的作業,以目錄維度視角挖掘疑似重復作業,優化后集群資源降低10%以上。
4. 重構元數據管理、血緣分析應用