為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦、大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
會上,來自工業和信息化部的領導,我國眾多優秀大數據領域服務商、行業應用客戶、研究機構、地方大數據主管機構的領導和專家,將對大數據政策、產業、技術的現狀與趨勢等內容進行交流探討。
6月5日,在數據資產管理分論壇上,Datablau創始人&CEO王琤為我們帶來了主題為《EDW2019-國際數據管理最新趨勢》的演講。
謝謝大家,今天我的演講是跟大家分享EDW2019-國際數據管理最新的趨勢。之前信通院會議負責人和我就這次演講內容有一個深度討論。我說看看能不能把國際上的最新趨勢、行業里面最新的方向,在會上講一講,在這里大家互相學習。
一、EDW簡介
我以前是CA ERwin全球研發負責人,做了十幾年的全球研發。EDW大會全稱Enterprise Data World企業數據世界,是DAMA International國際數據管理協會的全球年會,DAMA協會于1988年就成立了。EDW大會是商業世界中最全面的關于數據和信息管理的供應商中立教育與交流活動,至今已舉辦23屆。這個會我參加了蠻多年,每年都有一千多名與會者,就很多主題進行討論。那邊也給我留了一個作業,看看未來能不能把大會搞成一個中國的或者說東方的大會。這是每年會議的議程,如數據建模、新型數據庫怎樣做管理。去年在EDW上我也做了圍繞“微眾銀行的數據治理創新的場景”的演講分享,2019年EDW將在波士頓舉行。
二、元數據和數據目錄
今天的內容分了三塊,第一塊是元數據和數據目錄,這是比較新的趨勢;第二塊是數據架構;第三塊是數據建模。
第一塊元數據與數據目錄來自于這張片子,這塊其實是IBM全球CDO辦公室在EDW上做的分享。這是IBM Global Chief Data辦公室發表的論文,第一是說他要做成全球數字化轉型的領導者。IBM的分支機構很多,業態也非常多。他的信仰是說有一個企業級的數據是可信的,希望這個數據變成一個AI的骨架、AI的基座,開發整個企業級的數據戰略,企業級的治理系統,中心化的數據源,為未來AI做一個基座,包括深度的數據分析。相當于CDO辦公室跟其他業務部門是合作伙伴的關系。當前面臨的挑戰是業務跟技術花費太多的時間維護元數據,其實架構有了,內容也很豐富,運維變成了非常困難的事情。然后是碎片化,變化很頻繁,怎樣把這些碎片化的環境變成一些自動化的場景。最后是怎樣把運維化的方式變得更自動化。
我在國內接觸了方方面面各種類型的企業,金融行業、制作業、能源行業等。當前比較頭部的企業,建行以及股份制銀行等做數據資產已經有近十年了。他們當前的面臨的場景跟IBM很像,需要應對幾方面的挑戰:數據資產管理運維如何自動化?新數據源接入頻繁,如何自動盤點?數據需求強烈又變化頻繁如何滿足?新增系統數據如何管控?這些都是企業做了一段時間數據治理后,面臨的變化和挑戰。
IBM的解決方案是把元數據這層加強,包括虛擬化元數據。咱們今天在座的有一些是剛開始做數據治理,有一些可能做蠻長時間了。我覺得要以一個開放思路看看西方比較先進的數據治理理念,他們現在已經做了“分久必合、合久必分”,很多元數據系統把數據管理變成分片式,變成一個煙囪。自然語言的查詢,相關的東西是不是能自動盤點,應該是一個open source,元數據要開放,不是人看這個東西,是機器看這個東西,所以要做成open sourc+微服務的系統。系統應該是多級部署,是一整套系統,不是不同的分支機構、不同的區域自己搞自己的一套系統。
在國內比較少業務術語,什么事都是從業務術語切進來的。業務術語跟一些標準會比較像,國內跟西方的叫法不太一樣,不同的角色其實都是從業務術語切進來,看到的東西是不同的。不只是業務術語,剛才其實也談到了行業模型,把行業模型跟業務術語相結合,行業模型本身就是業務術語組裝成的。業務人員來看這些的時候不只是看一條條的分類,要看在這個行業模型里所處的位置。因為它其實都是業務對象,這些業務對象跟別的業務對象的關聯關系,這樣幫他理解業務數據。為什么搞行業模型?行業模型就是給一個核心的語境。