如果你處理過大量數據,你也許聽說過“數據治理”一詞,你可能會想,它是什么?適不適合你?如何實施?簡單來說,數據治理就是處理數據的策略——如何存儲、訪問、驗證、保護和使用數據。數據治理包括制定獲取方案:誰能訪問、使用和共享你的數據。
這些問題正變得越來越重要,因為企業依靠收集、存儲和分析大量數據,來達成業務目標。數據變成了企業的盈利工具、業務媒介和商業機密。數據泄露會導致法律糾紛,還會令消費者對公司的核心業務失去信心。
如果心存僥幸,全憑各個部門自行處理數據,那么你將缺乏統一管理數據的策略,也許會讓各個部門制定自己的策略。這是無法想象的,就像是缺乏管理實物庫存的策略,允許各個實體部門隨心所欲地生產、儲存和銷售產品一樣。數據使用不當就像庫存使用不當一樣,會給企業造成數百萬美元的損失,因此必須制定策略,使數據具有一致性和安全性,并隨時可用。這些應用于數據領域的策略就構成了數據治理。
數據治理的特點
數據治理策略必須涵蓋數據的整個生命周期,從數據收集一直到數據管護。在這個生命周期中,數據治理必須解決以下問題:
· 從哪里獲取數據以及如何獲取,這是數據生命周期的起點。數據來源決定了數據治理策略的基礎。例如,數據來源所決定的一個重要因素是數據集的大小。是從目標市場、現有客戶和社交媒體收集數據?還是使用外部供應商收集數據或者分析你收集的數據?輸入數據流是什么?數據治理必須著眼于這些問題,制定策略來管理數據的采集,引導外部供應商處理他們收集的數據或者分析你收集的數據,控制數據的路徑和生命周期。
· 驗證數據,尤其是驗證多來源數據,這是一個讓數據管理者十分頭疼的問題。區分重要數據和噪聲數據只是這個問題的開始。如果你是從附屬企業收集數據,你必須確保數據是可靠的。如果你是從社交媒體網站收集數據,在你的策略中,必須有一種驗證重要數據的方法。任何情況下,你都必須確保收集的數據是合法的,并且沒有被篡改——這個問題在并行計算環境中尤其令人擔心,因為并行計算常常被用來收集大量數據,這往往會使用云服務,故而增加了安全隱患。
· 數據治理策略必須解決存儲問題,而存儲方案在很大程度上取決于數據集的大小。以PB計的大數據必須存儲在安全的冗余系統中,常常利用層次體系,根據使用頻率來提供數據。這樣一來,昂貴的在線系統提供的是被頻繁請求的數據,而請求頻率較低的數據則存儲在不那么昂貴、可用率較低的系統上。不幸的是,這些優先級較低的系統也可能安全性較低,從而允許訪問敏感但請求頻率低的數據。因此,在制定數據存儲方案時,良好的數據治理策略必須考慮到方方面面的因素。
· 數據治理必須制定訪問控制策略,在需求和安全之間找到平衡。要讓那些需要數據來完成工作的人,吉隆坡服務器 大馬伺服器,可以在必要時無障礙地訪問數據。出于安全原因,他們能夠訪問的數據不應該超出他們的權限。數據應該在請求合法的前提下,才能被訪問,但出于安全原因,對敏感數據應該加大訪問難度,只向具有特定安全級別的用戶開放。應該對用戶和數據本身設置訪問級別,管理賬戶時,應與人力資源部和采購部緊密互動,這一點非常重要,因為這樣可以及時地使離職員工和停止合作的供應商不再擁有訪問權限。處理好這些細節以及確保數據所有權和責任,這是構成完整的數據治理策略的一部分。
· 使用/共享/分析。數據如何被使用是數據治理策略至關重要的一部分。潛在用途包括,使用數據來管理賬戶,改善客戶體驗,投放定向廣告,提供市場分析,與附屬企業共享數據。必須仔細界定哪些數據可用于共享或者用于營銷,并保護它們免遭攻擊和泄露,因為數據本來就應該被用于純粹的內部用途。要讓客戶知道,收集數據的所有公司都必須遵守數據使用和共享方面的規定。能夠確保數據使用合規,這是擁有數據治理策略的另一個重要好處。
· 收集、驗證、存儲、訪問和使用都是安全計劃的必要組成部分,必須有一個全面的策略來解決這些問題以及其他安全問題。安全計劃必須在不禁止用戶使用的情況下發揮作用,但數據生命周期的各個階段都可能因為疏忽大意而遭到攻擊和泄露。對安全的追求必須是支持而不是妨礙必要的使用。數據治理策略必須制定數據安全方案,包括訪問協議、對靜態數據和傳輸中數據進行加密,等等。