怎么實現“數據找人而不是人找數據”的夢想?“數據編織”(Data Fabric)悄然登場。2018年“Data Fabric”首次出現在Gartner的十大數據與分析技術趨勢中,以后每年它都會出現在其中。10年前大數據概念在國外興起后,不到3年就被中國用戶廣泛接受,而今天大多數中國廠商則是按兵不動,這又是為何呢?
“數據編織”悄然登場
Data Fabric的中文名字到底怎么翻譯,IBM公司與Gartner有了分歧。IBM大中華區科技事業部云計算與認知軟件部數據與人工智能信息架構產品總監王積杰將其稱為“數據經緯”,而Gartner高級研究總監孫鑫認為“數據編織”更為合適,因為他認為數據編織更凸顯“動態”。
在Data Fabric出來之前,數據結構的設計都主要部署成靜態基礎設施,而在未來將需要采用更動態的數據網格方法全面重新設計。
孫鑫在接受記者采訪時表示,Data Fabric不是一個產品而是一種設計理念,是利用AI、機器學習和數據科學的功能,訪問數據或支持數據動態整合,以發現可用數據之間獨特的、與業務相關的關系。
而IBM對Data Fabric的看法,與Gartner專家提到的“動態”“數據網格”和AI賦能并無沖突。IBM中國研發中心首席技術官趙軍偉解釋:“經緯作為名詞,本意為織物的直線與橫線,引申為連接萬物的規律,《左傳·昭公二十五年》中寫道——‘禮,上下之紀,天地之經緯也。’ 作為地理概念,經緯度可以定位地球上任何一個位置,而‘數據經緯’則可以在紛繁復雜的企業數據目錄里定位任意一個數據源。經緯用作動詞,是規劃治理的意思,《周書·靜帝紀》中提到的‘經天緯地’就是治理天下的意思。”
“我們可以把Data Fabric想象成一張虛擬的網,這張網并不能理解為一種點對點連接,而是一種虛擬連接,每個節點都可以是不同的數據系統,不同系統上的數據在網上都可以迅速被定位和找到。Data Fabric的主要功能是把正確的數據,在正確的時間里,給到正確的人。通過Data Fabric, 對的人可以從對的地點,在對的時間里,獲取對的數據。”王積杰對記者說。
現在的數據連接的架構設計還主要是“人找數據”,而Data Fabric設計核心是“數據找人”,在合適的時間、將合適的數據推送給需要的人。
為什么Data Fabric將會成為一種趨勢,為什么越來越多的企業將在未來采用這樣的方式進行部署?王積杰談及了數據利用結構模式的變化。傳統IT時代,無論是早年的“數據倉庫”還是近幾年的“數據湖”和“大數據”時代,其實數據利用都是集中式的架構,把數據收集到一起,讓企業的數據分析師、BI(商業智能)分析師對數據進行分析。但在云計算時代,用戶業務部署在多云的環境下,要想將分布在不同云上的數據集中在一起成本很高,也很費勁,于是采用去中心化、分布式的數據網絡架構就成為了必然選擇。
Data Fabric可以同時給業務和技術團隊帶來明確的價值,王積杰表示,從業務層面來看,由于企業能更容易地獲得高質量的數據,從而能更快和更精確地獲得企業數據洞察。從技術層面來說,由于數據復制的次數和數量較少,從而減少了數據集成的工作,方便維護數據質量和標準,也減少了硬件架構和存儲的開銷。由于減少了數據復制和大大優化了數據流程,加快并簡化了數據處理過程,從而通過實施自動化的整體數據策略,減少了數據訪問管理的工作。
Gartner認為,隨著數據的日益復雜以及數字化業務的加速發展,Data Fabric已成為支持組裝式數據分析及其各種組件的基礎架構。由于在技術設計上能夠使用/重復使用及組合不同的數據集成方式,Data Fabric可縮短30%的集成設計時間、30%的部署時間和70%的維護時間。IBM 7月發布的Cloud Pak for Data4.0的軟件組合增加了智能化的Data Fabric功能,其中AutoSQL(結構化查詢語言),可以通過AI來自動訪問、整合和管理數據,可以幫助客戶以8倍的速度、不到一半的成本,獲得分布式查詢的答案。
如何“編織”數據?
要實現“數據找人而不是人找數據”,Data Fabric究竟如何“編織”?
王積杰認為,Data Fabric至少需要四個維度的能力。一是能夠在數據之間建立虛擬鏈接,簡化數據訪問的模式,從而減少數據復制的數量。二是需要建立一個企業數據目錄,并需要利用AI技術,自動化地實現基于語義和知識的分析,理解數據及其業務含義,并建立知識圖譜, 從而使數據目錄變得智能化和自動化。能夠讓需要數據的用戶,隨時了解到需要的數據在哪里、數據質量如何等。三是建立自動化數據平臺,允許用戶通過自服務的方式,directadmin安裝,訪問并獲取數據。四是通過提供整體的自動化策略,確保數據安全,增加數據的隱私和權限保護,并提高數據質量。