為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦、大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
會上,來自工業和信息化部的領導,我國眾多優秀大數據領域服務商、行業應用客戶、研究機構、地方大數據主管機構的領導和專家,將對大數據政策、產業、技術的現狀與趨勢等內容進行交流探討。
6月5日,在大數據前沿技術分論壇上,東方金信數據研究院院長付威為我們帶來了關于海盒數據中臺SDME的介紹。
大家我好,我是來自東方金信的付威,今天給大家簡單介紹一下數據中臺如何快速支持業務場景。昨天的分享會上給大家說了一下,討論了數據中臺如何做,其實沒有很明確的說法,我這里介紹一下數據中臺在我們實踐過程中的一些思路,拋磚引玉。
首先數據中臺的概念是起源于互聯網領域的,明確說是起源于阿里。以前不叫數據中臺,最早叫中臺,中臺又分業務、數據中臺。我在傳統互聯網行業做過很多年,我非常理解為什么互聯網領域提出數據中臺概念,實際上它最主要的需求是快速,快速的支持業務模式。我們傳統的話做數倉也好、大數據也好,做一個項目,比如在大數據平臺上做一個應用,通常要三個月,要做ECM或者風控要5個月的時間,這在互聯網行業是根本不可以接受的。可能8個月錢都燒完了公司要關門了,它的要求是一定要快。
第二它的生命周期是非常短的。我們做互聯網行業做的時候應用很簡單,也可能這個應用是即用即拋型的,拿來用,可能半年之后就不會用這個了。第二應用的生命周期越來越短。
第三大數據技術產品越來越多,大數據團隊的人也越來越多,很難協調一個產品的開發,協調資源是非常多的。所以企業對數據中臺的需求我們總結出來3點:
1、要快速構建應用;
2、減少人力成本;
3、數據應用效能是不變的。
在中臺上舉一個例子。在二戰的戰爭前線人是非常多的,都是幾萬人作戰,但是現在的作戰前線是人可能很少的小分隊,但是它的作戰效能是不變的,因為它能呼叫遠程空中火力包括各種支援,它的效能是不變的,這就是數據中臺產生的背景。
東方金信基于這樣的背景,包括各行各業的經驗總結出來數據中臺的定義是這樣的:首先數據中臺是必須建立在標準的大數據基礎環境之上的,同時為業務應用提供數據解決方案的一系列服務與組件的集合,以及與開發相配合的組織架構和流程。
在這里我們把數據中臺和數據后臺分開了,我們說的更多的包括數據開發、運維、建模,我們常見的清洗也好,我們認為這是數據后臺的工作,這個人是非常多的,我們把這種標準大數據的規劃建設、統一的存儲建模開發運維統稱為大數據后臺。大數據中臺干什么?有兩個:一是服務組件,第二有組織流程。通過服務組件、組織流程快速支持前臺作用。前臺只有一個前臺,這一個前臺上是由業務前臺和數據中臺和業務中臺組合而成的。在我們這個理論想法的基礎之上,我們規劃出了整個東方金信大數據的產品架構。今天重點不是介紹東方金信大數據的產品架構,但是這里簡單介紹一下。
下面有個云數據的容器平臺,未來用安全云容器,上面有海盒大數據基礎的存儲平臺,包括海盒大數據和海盒流計算引擎,包括數據庫、數倉數據庫、圖數據庫和對象存儲,一個企業至少是五六個以上的存儲來解決大數據的存儲。在這之上是海盒數據資產管理平臺包括行業數據庫和數據資源目錄,這個數據資源目錄和大數據有時候會混淆,這個通常在政府機關用的比較多,因為它的委辦局特別多,數據差異性特別大,所以會有資源目錄的場景。還有元數據、數據質量、數據標準、數據安全、數據周期和數據產品工廠,這會在另外一個會場中介紹這幾個產品。這里重點提一下關于元數據,元數據的重點是影響分析,里面很重要的問題是影響分析爆炸,如果做三層分析一下子幾萬張表都會受影響,我們在這里已經把這個問題解決了,精細化,在這里就不細談了。
左邊是海盒同步平臺包括共享數據交換和任務項目處理,這上面是海盒大數據分析平臺,包括分析套件和全終端的BI套件,在此之上還有海盒人工智能平臺,包括自然語言處理、搜索引擎、圖分析工具等等。這些下面說的沒有圈出來的都認為是數據后臺要管理的事情包括存儲、管理、同步、開發、加工等等這些功能,這些對外輸出是稱之為海盒數據中臺。上面有兩個組件介紹一下,一個叫做數據服務,還有一個數據應用構建器。這兩個組件會構建出數據中臺的組件,包括自動分析、標簽管理、位置服務引擎、外部數據管理。這個外部數據管理可能一些企業都會用到,比如爬蟲、外部數據收集、企業上傳數據等等。還有指標管理、企業和政府的知識圖譜,還有一個引擎。這就是數據中臺在整個海盒大數據產品架構中的背景。