在企業數據建設過程中,大數據治理受到越來越多的重視。從企業數據資產管理和提升數據質量,到自服務和智能化的數據應用,大數據治理的內容在不斷發展和完善,其落地實施的過程中會遇到各種各樣的難題和挑戰。本篇文章通過分析大數據治理建設中的溝溝坎坎,總結出了大數據治理需要具備的能力和關鍵技術。
一、困難重重卻充滿光明的大數據治理發展之路
1、傳統數據治理一直無法逃脫的魔咒
大數據治理從建設內容和實施目標上可以劃分成不同的階段,每個階段完成不同的任務,隨著階段的遞進,建設內容逐步加深,不同的企業切入點和訴求也各不相同。大致分為以下幾個階段:
•摸家底階段
內容:企業元數據梳理和采集
目標:構建企業數據資產庫
•建體系
內容:建立企業標準和質量提升體系
目標:提升數據質量
•促應用
內容:自服務通道、構建企業知識圖譜
目標:數據智能應用
然而,大數據治理建設之路并不是一帆風順的,甚至可以說充滿了各種問題和困難,如何管理企業級的數據資產、如何讓業務積極參與到數據建設中來、如何降低數據治理的落地難度等一系列問題,一直困擾著數據治理的發展,傳統數據治理的問題主要體現在以下幾個方面:
•管理范圍窄
要做數據治理首先要知道有哪些數據,傳統的數據治理往往只管理了數據領域,很少關注業務、管理和開發相關的數據資產,數據管理范圍比較窄,而且,受限于技術實現,即使在數據領域的數據資產也很難做到精確管理;
•業務難結合
業務元數據的廣泛缺失,導致業務人員無法使用技術性的元數據系統,元數據缺乏業務用戶,使用者少;
•應用場景缺
元數據被當成單獨的系統,而不是廣泛的技術基礎,導致只關心元數據本身的應用場景;
•技術不完善
在技術層面存儲缺乏擴展性,采集自動程度不高,管理實時性不高。
2、自服務大數據治理是解決問題之道
自服務的大數據治理平臺具備管理、開發、共享、使用等能力,通過自動、自助、智能化的大數據治理,能夠實現對數據的找、供、用、治,從而一站式解決傳統數據治理在大數據時代的各種難題,具體涉及到以下幾個方面。
•建好數據管理體系,快速識別數據
自服務大數據治理平臺可以實現有數據可管理。現在的企業數據資產繁雜眾多,特別是建設大數據平臺的企業,數據的類型、分布、實現技術、所屬部門等都很繁雜,通過手工一點點梳理是不現實的,如何低成本、快速有效地將數據梳理和管理起來?這是做大數據治理遇到的第一個坎。
自服務大數據治理平臺可以通過自動化手段,自動識別企業數據資產并標明數據方位和屬性,建立業務能理解的數據服務目錄。
•建立數據治理體系,監控并快速發現問題
自服務大數據治理平臺可以保障企業數據資產的質量。企業內數據環境復雜,很容易出現數據不一致、數據不及時、數據缺失等一系列問題,如何識別并快速定位數據問題?特別是針對海量數據,如何在不影響性能情況下找出問題數據?這是做大數據治理遇到的第二個坎。
通過自服務大數據治理平臺建立和支撐起基于數據指標、質量檢核、問題發現和監控的完善數據治理體系,從事前、事中和事后等各個環節規避、發現和解決數據問題,將能保證數據應用無后顧之憂。
數據治理的目標是把數據管起來、用起來、保證數據質量,這些目標離不開各種技術的支持,這些技術包括元數據自動采集和關聯、數據質量的探查和提升、數據的自助服務和智能應用等。
1、管起來:數據資產的自動化采集、存儲技術要實現大數據治理的資產管理,需要做足三個方面的工作:
采集:指從各種工具中,把各種類型的元數據采集進來。
存儲:采集元數據之后需要相應的存儲策略來對元數據進行存儲,這需要在不改變存儲架構的情況下擴展元數據存儲的類型;
管理和應用:在采集和存儲完成后,對已經存儲的元數據進行管理和應用。