為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
會上,來自工業和信息化部的領導,我國眾多優秀大數據領域服務商、行業應用客戶、研究機構、地方大數據主管機構的領導和專家,將對大數據政策、產業、技術的現狀與趨勢等內容進行交流探討。
大會現場,來自中國信通院云大所大數據與區塊鏈部副主任姜春宇,為大家發布了“大數據技術產品測試觀察”。
中國信通院云大所大數據與區塊鏈部副主任姜春宇
大家上午好,很榮幸又一次站在這個舞臺上。“大數據產品能力評測”已經進行了第八批了,很不容易。因為我們已經進入第5年了,而且我們還在持續的做,不斷推動了整個產業的發展。
剛才看到的是頒獎的情況,具體來說,大數據整個產品評測是怎么做的?而且我們做了這么多產品到底有什么心得,從中能觀察出什么技術領域的趨勢?接下來我們的PPT就帶來這樣的分享。
首先大家可以看到這是一張整個大數據產業中軟件所占比重的圖,相比硬件和服務,軟件逐年增長。從2013年22%,到2027年預計增長到45%,全球大數據產業軟件在高速發展。
DCA大數據產品能力評測不斷促進國內大數據軟件的成熟,每年的評測體系和標準體系都在發生一些變化,都有新增加的項目,而且底層的我們認為已經差不多了,管理類、分析類和解決方案類的會慢慢增多,這是我們的認識。
經過5年的發展,大數據產品能力評測完成了171個測試,112款產品,這是我們的“全家福”。這張圖里看到了各種各樣企業的名字和大數據相關的產品,非常豐富。可以說這也是整個大數據產業里面做技術、產品企業的縮影,都在這張圖里面了。
我們可以看到一些數據,在測試規模方面,DCA的評測是全球領先的100TB,超過了一些公司生產環境的的數據。測試過阿里的10000節點和華為的5000節點,性能完成過,華為的300節點,阿里的300節點,新華三的200節點。從通過產品數量來說,星環科技完成了8個產品,阿里、騰訊、國雙等公司完成了7個產品,可以看到Top10的企業,都是產品非常豐富,技術類公司的典范。另外整個研發熱點或者哪些產品是大家都具備的能力,批處理平臺這是毋庸置疑的,還有分析數據庫,這兩年MPP數據庫越來越重要了。數據集成、數據挖掘、數據管理這類工具也越來越多了。
我們第八批有個三個大規模評測,兩個是在MPP的數據庫,一個是批處理平臺。之前的認識,MPP的擴展能力是受限的,但是今年看到了它的擴展能力也在迎頭趕上,華三是完成了200節點,華為完成了512節點,突破三四百不是夢,擴展能力已經逐漸成熟。
第一個觀察,大數據基礎產品穩中有變,這是我們測過的四五十款大數據批處理平臺,70%以上都是基于CDH和HDP的研發,23%基于開源或者完全的自研,批處理平臺已經成為大數據生態最成熟的產品,國內技術人員對開源生態組件的熟悉程度越來越高,前幾年大家會有一些邊邊角角的功能用不到,或者不熟悉,但是這兩年明顯感覺到這些功能都特別完備,特別熟悉。
去年CDH和Hortonworks合并了,Hadopp領域的免費午餐可能走到盡頭了,Hadoop發行版會迎來一家獨大的局面,以前免費的模式要結束了,我們可以看到基于CDH和HDP二次研發的產品占到70%以上,這個比例還是很高的。大型技術公司普遍采取開源和自研兩條腿走路,來應對不確定性。
另外一個變化的趨勢,前幾年我們說Spark已經成為了整個大數據生態下一代計算引擎,這是板上釘釘的,但是這幾年又產生了疑問,好像不那么確定了。為什么呢?這兩年Flink非常受追捧,Spark在流方面遭到了挑戰,為了應對這個挑戰,它把以前的Spark Streaming轉向Structure Streaming,也可以看到批流融合方式明顯了。以前是批流,現在是流批,批處理可能是未來流的特例。
趨勢去年講過,今年還是這樣的趨勢,一是容器化,資源細粒度的控制。二是支持AI,大數據平臺如果不支持AI,那就是兩套平臺,整個技術界就是分久必合合久必分,為了統一就必須要向AI兼容。三是流批的融合,也是為了解決不統一的局面。最后是面向大規模,尤其是在中國,這兩年大規模的趨勢越來越明顯。