為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
會上,來自工業和信息化部的領導,我國眾多優秀大數據領域服務商、行業應用客戶、研究機構、地方大數據主管機構的領導和專家,將對大數據政策、產業、技術的現狀與趨勢等內容進行交流探討。
6月5日,在大數據前沿技術分論壇上,聯通大數據公司高級技術總監李大中為我們介紹了聯通大規模數據集群治理實踐。
首先十分榮幸受大會邀請做一個我們自己運營商的集群治理方面的分享。在此之前我想談談自己的感想,運營商的數據量確實非常大,實時性要求非常高,從采集、處理加工等每個環節都要投入大量的人力物力來做,這個過程當中產生了很多以前在中小型規模和集群上遇不到的問題。數據量大了以后,全都是問題。
我先簡單介紹一下聯通大數據公司,聯通大數據是中國聯通集團旗下的全資子公司,也是三大運營商里面唯一成立的專業化大數據公司。我們聯通大數據公司有兩個功能,第一負責經營和運營中國聯通全量用戶數據的大數據能力的建設——這是聯通集團賦予我們大數據公司的職能。另外在大數據領域對外的投資和合作也是由聯通大數據公司來負責,所以大家今后要有這方面的合作需求可以和聯通大數據公司合作。聯通大數據有幾大戰略:一是集中平臺——因為整個聯通數據是集中的,聯通大數據每天在處理全國的實時數據;第二我們也提供數據合作,這是基于我們的海量數據;第三是資本合作。
聯通大數據的產品線非常多,建立了基礎、標準應用和平臺及行業解決方案三層產品結構。在標準產品里,我們的風控做的特別好。除此之外產品還包括數贏洞察、智慧足跡、大數據平臺等。我們對外提供行業解決方案有旅游方面的大數據產品,有游前洞察、游中監測、游后服務、全程大數據,產品SaaS化。此外還有政務大數據、公共安全大數據,是偏向于社會治理方向的。
看一下聯通擁有的數據資產。聯通大數據平臺存儲容量100PB,Hadoop集群超過6000個節點,日新增數據超過140TB,上網數據日處理10000億條,處理的互聯網數據量達到萬億級,這個數據量都是定時或者實時機制匯聚到我們這里。聯通大數據模型有2000多個,數據庫200多個,數據表1.6萬,字段50萬+,分區數2000萬,文件數2億+。看到這些數字,做大數據的人都會非常興奮,我們也一樣,但是在興奮過后也有很多疑惑或者叫做走過很多坑,為什么?因為這么海量的數據肯定在數據治理上要付出巨大的代價。
一、大規模數據集群治理
我重新定義了一下符合大數據公司自己的資產管理體系。我們也參考了業界好多CMI的數據管理體系等,但是我覺得符合大數據公司的管理體系還是圖中這個,這一體系經過實踐取得了明顯的效果。首先我們的數據資產管理體系建設是由三塊組成的:左側第一塊是數據治理框架,我們起了個稱呼叫“梳整促”;中間第二部分叫“巡山”,以集群治理為主,最右側第三塊是價值經營,這三塊連起來就是聯通大數據公司的數據資產管理體系建設。
中間這塊為什么叫“巡山”?我們把一個個集群都看作擺在我們面前的一座座大山,山上面有峰頂有風景有溪水有河流什么都有,但是得進去把它梳理成符合你需要的樣子,所以基于這塊今天重點講的是基于全域的數據集群治理。
如圖這是我們在經過一段時間發展以后系統層面出現的問題,這種問題不是說突然出現的,是慢慢慢慢反映出來的,最直接的反映是在集群的處理能力和處理效率的下降。從底層洞察這塊可以直觀看到,香港免備案主機,集群的文件數量太多,小文件占比高,文件數量多到單集群1000節點,上面的文件數大概將近8000萬文件。這些不是一下子大規模爆發,是慢慢慢慢地積累起來,越來越不舒服,最后造成的結果是集群RPC負載過高,集群垃圾文件過多,影響集群穩定。在算力層面,集群雖然用了一些調度策略來區隔資源分配,但是由于集群不穩定,集群處理的效率降低,整體負載高,耗資源大。還有冗余計算,異常作業的檢測。
在對最上層數據管理進行直接深入剖析和分析后發現,我們的元數據不夠自動化、不夠實時化,過多的依賴于人的維護或者一個流程,如果有人不遵循這個流程,元素管理就失真了。我們打破了這個思路,不能靠管理或者自上而下的規定。再有就是沒有完整全域數據血緣追溯——這個血緣追溯是自動化的,無法定義工作的范圍或者一些面子。