數據治理的本質是幫助企業創建數據策略,并確保大家能夠遵守這些策略。這些策略涉及一系列數據相關流程,包括數據保護、驗證和使用的準則。數據管理人員必須從業務用戶處征求數據需求,并與數據治理委員會成員合作,美國服務器,以就常見的數據定義達成一致,指定數據質量指標,闡明相關的策略,并開發出衡量合規性的方法。
然而,在定義數據治理策略和實現它們之間架起一座橋梁,往往是一個巨大的挑戰。這些策略的目的是對跨業務工作流的數據資產質量進行控制和監督,但是承擔關鍵的數據質量管理職責的數據管理人員,通常沒有得到適當的培訓或不具備合格的技術。
這就是數據沿襲(Data Lineage)工具的用武之地?;谠?a href="http://www.qzkangyuan.com/cnidc/bigdata/news/2017/7601.html">數據的數據沿襲信息記錄了數據對象在組織系統中的旅程。沿襲記錄可以幫助數據分析師和其他最終用戶理解他們所使用的數據,但是它也簡化了兩個關鍵的數據治理過程:分析數據質量問題的根本原因和源系統中數據集更改的影響。
數據沿襲和數據治理
如果無法確定是在數據管理環境中的哪些地方引入了數據錯誤,數據管理員和數據質量分析師就很難去識別和修復它們。這樣做的后果是:如果數據缺陷繼續在系統中傳播,組織可能會常常被不一致或不準確的分析和報告所困擾,亞洲服務器,從而帶來業務運營中的錯誤決策。
在根本原因分析過程中,數據沿襲工具提供了對處理階段序列的可見性——通過被檢查的數據流??梢栽诿總€階段檢查數據的質量,從而使數據治理和數據質量團隊能夠找到數據錯誤產生的位置。
從第一次發現錯誤的位置開始,數據管理員可以在更早的位置插入控件,以監視數據是否符合當時定義的期望或是否出現了錯誤。通過確定在哪一個處理階段,數據進入時符合但在退出時存在缺陷,數據管理員和數據治理程序中涉及的其他工作人員就可以專注于消除根本原因,而不是僅僅糾正錯誤的數據。
數據沿襲工具還可以幫助數據管理員進行影響分析,以了解數據管理環境中源數據格式和結構更改所引起的問題,鑒于現在的數據管理環境一般比過去更加動態化。
當源數據發生變化時,可能會在下游產生意想不到的后果。通過從數據創建或收集的角度向前工作,數據管理員可以依賴數據沿襲文檔來幫助跟蹤數據依賴關系,并確定受數據更改影響的處理階段。這使得數據治理和數據管理團隊能夠重新設計受影響的階段,以適應更改,并確保不同系統中的數據保持一致。
如何選擇數據沿襲工具
手動收集元數據和記錄數據沿襲需要大量的資源投資,還容易出錯,這可能會帶來大問題,特別是在依賴數據分析來驅動業務運營的組織中。因此,數據治理需要尋找能夠管理數據沿襲表示的工具,并自動將它們映射到整個企業。
在技術評估過程中,你應該尋找符合這些要求的數據沿襲工具:
·能夠本機訪問大量數據源和數據產品,調查它們包含的元數據,并收集元數據以供數據治理使用。
·能夠將捕獲的元數據聚合到一個集中的存儲庫中。
·能夠推斷數據類型,并將引用數據的常用用法與來自不同系統的數據元素進行匹配。
·能夠為各種最終用戶提供聚合元數據的簡化表示,并支持協作以驗證元數據描述。
·能夠記錄數據如何在組織的處理流中流動的端到端映射。
·能夠生成數據沿襲的可視化表示。
·包含供開發人員在構建可以查詢沿襲記錄的應用程序時使用的API。
·能夠創建反向索引,將數據元素名稱映射到它們在不同處理階段的用例。
·提供一種搜索功能,可以快速跟蹤數據流,從起始點到下游目標。
·使用戶能夠向前和向后監視數據流。
數據沿襲產品
目前市面上有很多產品可供選擇。大型IT供應商(包括IBM、Oracle、SAP和SAS Institute等)銷售的數據管理平臺中,往往包含用于記錄和管理數據沿襲的工具。專注于數據集成、質量和治理的小型軟件供應商,也會提供提供相應的產品。此外,數據沿襲功能有時也會被內置到數據目錄軟件中,各種BI和分析工具的供應商也是如此。
【凡本網注明來源非中國IDC圈的作品,均轉載自其它媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責?!?/p>