欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據技術

應對大規模數據集群治理,聯通大數據這么做

維克多在2012年出版的《大數據時代》一書中曾預測:數據列入企業資產負債表只是時間問題。如今,伴隨著新興科技手段的融合創新,大數據已經應用到了我們生活中的方方面面,數據資產的概念已逐漸得到國內外企業的強烈認同。

但是,數據和企業資產可以直接劃等號嗎?實際情況是,沒有經過系統管理和規劃治理數據集群,不僅很難為企業創造實際效益,而且還將帶來權限混亂、計算能力下降、冗余存儲計算、資源浪費等問題,使整個數據集群處于“亞健康”狀態。

那么,是否有正本清源的應對方案呢?聯通數據有限公司技術部負責人李大中日前在2019大數據產業峰會-大數據前沿技術論壇進行分享,他以《聯通大規模數據集群治理實踐》為主題,分享運營商在數據資產管理方面的經驗和對策。

下文為李大中演講內容整理:

聯通數據有限公司承擔著聯通數據能力建設和對外服務運營職能,目前平臺存儲容量達100PB,Hadoop集群超過6000個節點,數據模型數量達2000余個。作為運營商在數據治理過程中,既要面對大數據量的實時處理需求,也必須從成本角度考慮集群算力配置、安全合規等方面的要求。大數據是一個高成本行業,集群算力成本是其中主要部分。

通過參考行業的治理經驗,并結合公司業務和組織架構特點,我們總結出了一套適合公司業務發展的數據資產管理體系,也就是“疏整促+巡山+DataValue”數據資產管理體系:基于“疏整促”工程構建的全生命周期數據管控治理體系,基于“巡山”工程構建的大規模集群治理體系,基于“DataValue”工程實現對外數據價值經營,三大工程同步推進,形成數據治理+集群治理+數據價值的整體協同效應。

在實際執行中,“巡山”工程作為 切入點首先啟動,效果也最為明顯。在大規模集群計算環境處于亞健康的狀態下,免備案主機,我們將治理工作分解為兩階段:首要任務是解決亞健康問題,即保障集群資源算力可用、確保集群穩定性、業務連續性;長期和更為重要任務是保持健康狀態,即持續有效的監督數據治理工程的效果。

關于大規模數據集群治理的推進方法論,由于集群治理涉及到從采集、清洗到模型加工,從平臺運維崗到產品開發崗,幾乎涵蓋了公司的整個技術線和產品線上百人工作內容,所以采用自上而下的頂層設計的方式是不現實的,我們采用的是自下而上、自發協同、精益推進式的數據集群治理文化。從發現問題點入手,由點帶面找到原因、制定解決策略并建立相應的監督點,最終逐漸形成體系;通過某幾個環節治理成果顯性化,帶動整個公司生產組織體系逐漸形成治理文化。

治理過程中,站群服務器,針對我們遇到過的幾個重要的點向大家介紹一下思路:

1. HDFS&YARN作業深度監控

針對小文件過多、文件量過大、耗資源大等情況,聯通大數據通過自主研發一套統一元數據實時采集平臺對Fsimage和EditLog進行反序列化解析,實時批量獲取資源隊列信息、文件目錄、作業任務信息等內容,通過多維關聯畫像洞察疑似異常作業,推動作業優化和監控優化效果。最終集群文件數量從接近8000萬下降為3000萬,平均文件大小提升4倍。集群資源負載從每天幾乎處于打滿狀態,下降為不到70%。每年節約固定資產投入上千萬元。

2. RPC請求和關鍵服務預警

針對集群RPC經常出現請求延時過大,甚至達到秒級,導致集群處于停擺不可用狀態,通過采集JMX指標、服務連接數、堆棧信息、GC等信息進行關聯畫像,并下鉆洞察相關作業,精準定位待優化作業。優化后集群RPC請求延時大幅減少,下降為毫秒級別。

3. 重復加工/冗余計算挖掘

針對數據重復加工、冗余計算等情況,估計大家的系統中或多或少都存在,這種情況直接導致資源被浪費。我們通過對HDFS JOB BINARY FILE分析,定位疑似冗余計算作業,這種方式同組織架構復雜度無關、不依賴上層業務輸入,其核心思想就是通過提取出具有相同輸入路徑的作業,以目錄維度視角挖掘疑似重復作業,優化后集群資源降低10%以上。

4. 重構元數據管理、血緣分析應用

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 萨嘎县| 庆阳市| 肃宁县| 屯昌县| 乌海市| 通化市| 伊宁市| 台东市| 渭南市| 永春县| 昔阳县| 吴堡县| 莱州市| 青浦区| 苍山县| 岱山县| 兰坪| 潼南县| 沿河| 乌拉特前旗| 江阴市| 名山县| 昔阳县| 筠连县| 牟定县| 巍山| 伊吾县| 布尔津县| 大厂| 龙陵县| 灵台县| 高台县| 大英县| 酒泉市| 丽江市| 宁明县| 汶上县| 肇东市| 衡水市| 丘北县| 海门市|