11月1日,由中國信通院主辦的2019(第二屆)中國金融科技產業峰會進入了第二天分論壇環節。其中,分論壇六《金融業數據治理與應用》在當天下午隆重召開。該論壇由中國信通院云大所大數據與區塊鏈部業務主管馬鵬瑋主持。、
會上,滴滴云計算有限公司產品專家王川川為與會者帶來了題為《數據資產管理:《基于數據目錄的數據治理&應用》的分享。
王川川:大家下午好!我是來自滴滴云,今天是以產品經理的視角給大家再陳述一下對于系數據治理和應用探索過程中的理解和方法。
數據治理這個概念現在在數據領域是細分的學科,現在各個公司、企業、行業對數據治理有一些約定俗成的認識或方法論,如把數據治理理解為包含了主數據、數據質量、數據標準、數據安全、數據生命周期管理等一系列產品整合的方案,現在一直在演進過程中。
因為我是一個產品經理,從產品視角給大家闡述一下,大家討論數據治理時討論什么?
首先可以把數據的公民抽象出幾大類角色:CDO。數據管理者;數據生產者;廣大的數據公民。
從數據治理角度來看,這四個角色對于數據治理關注點完全不一樣。
CDO,肯定關注整個企業數據資產大盤,安全合規,數據信息價值如何發揮出來。
數據管理者,更多關注在怎么降低數據成本,從數據管理角度做到這些數據的安全合規。
數據生產者,把數據治理定義在數據一致性、穩定性、及時性這些在數據質量相關的視角上。
數據消費者,更多關注在這些數據在哪兒找到,如何能看得懂,如何使用。
總結:數據治理包含數據的資產化,數據的服務,數據的交付。
數據在治理過程中,把信息熵降到最低的過程。在信息論之父1948年發表了論文中提出“信息熵”這個概念,引起很大的反響,“熵”是物理學概念,指信息在傳遞過程之中一些不穩定性,所以很好地類比數據治理和使用中的場景。數據治理的目的是要讓數據使用過程中的問題盡量減少,數據治理的目的就是把信息熵降到最低的過程。
在數據的信息化時代和數據資產化時代,從很多維度已經有明確的區分。
承載信息方式,IT時代,數據是描述的,數據治理里面也是以信息為出發點去構建信息與信息的連接。在知識和承載方面,專家是非常寶貴的,而且專家經驗是很難被傳承下來的,但是在數據資產化時代,已經可以看到承載信息方式通過數據還原信息本身,在方法論方面,已經轉變為以組織或個人邏輯點構建的是人與人的連接,同時信息是動態流動的,方法論已經進化到重協作和治理,知識煙囪也得到了改善,以AI為助力,協助專家經驗零成本的去繼承。
互聯網的特點是發展非常迅速,隨著數據的巨量增長,經歷過數據煙囪、信息孤島的過程,我們提煉出三個維度的切入點:數據、工具與流程、人。
數據維度。數據維度關注的是數據的可描述性和可獲取性,完善到數據技術屬性、業務屬性、管理屬性,這些具備之后,數據很容易被解讀、被理解,而可獲取性不僅只包括數據的準確性、一致性、及時性,還包含其他諸如在安全合規的前提下獲取數據的便利性,這是一個視角。
工具和流程的維度。這個維度著重解決連接效率問題,連接不僅僅是信息之間連接,包含人、信息、知識和智慧之間的連接。
人的維度。充分調動人的能動性和組織的力量來進行數據治理的工作。
有了這三個維度的支撐,圍繞提升工作效率、治理與合規兩個大的方向,去做一些類似于數據價值的度量、提升數據發現、理解與獲取效率,通過與社區豐富信息用數據說話,通過信息分享降低障礙,降低重復的體力勞動,最后通過豐富的API提成及數據服務來提供完整的數據應用的鏈路。
下面給大家介紹一下我們在實踐中的一些方法論。
1、我們認為一切的問題都是人的問題。
如何理解?我們在觀察用戶使用數據過程中,發現困擾廣大數據用戶的問題有很多共性,如公司有什么數據,這些數據存儲在哪,產出是否符合我們要求,基本定義是否符合可以解讀的。從這些問題之中提煉出兩個指標:
一是耗時占比,就是說一個用戶完成一次數據分析,在查找和理解到最后去信任那個數據所花費的時間和完成這次數據分析所使用的時間占比,經過我們公司內部進行的調研,大概耗時占比占到80%左右的時間,所以這個過程是非常長的。我們就把耗時占比指標作為我們在數據治理和應用產品體系之中要解決的核心目標。