為了深入落實國家大數(shù)據(jù)戰(zhàn)略,推動大數(shù)據(jù)產(chǎn)業(yè)交流與合作,展示我國大數(shù)據(jù)產(chǎn)業(yè)最新發(fā)展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協(xié)會主辦,大數(shù)據(jù)技術(shù)標準推進委員會承辦的2019大數(shù)據(jù)產(chǎn)業(yè)峰會在北京國際會議中心隆重舉辦。
6月5日上午,大數(shù)據(jù)前沿技術(shù)分論壇舉行,來自2017/17263.html">中國信通院云計算與大數(shù)據(jù)研究所工程師王卓為我們帶來了第八批大數(shù)據(jù)產(chǎn)品能力評測的精彩解讀。
2017/17263.html">中國信通院云計算與大數(shù)據(jù)研究所工程師王卓
大家好,昨天在主會場第八批整個大數(shù)據(jù)產(chǎn)品能力評測證書已經(jīng)頒布了,今天我主要介紹評測詳細的情況。內(nèi)容主要分四部分:總體介紹、測試觀察、詳細結(jié)果、未來展望。
一、總體介紹
這些年大數(shù)據(jù)軟件產(chǎn)業(yè)發(fā)展在不斷擴大,比例從2013年剛剛開始測評時的20%左右到現(xiàn)在已經(jīng)達到30%多,按照預測增長趨勢還會不斷擴大。大數(shù)據(jù)產(chǎn)品能力評測促進了大數(shù)據(jù)軟件產(chǎn)業(yè)發(fā)展成熟,現(xiàn)有的評測體系包含多項多方面評測,既有已經(jīng)展開的評測也有未來計劃開展的評測,免備案主機,測評項不只包含基礎能力還有相應的性能。目前共有112款產(chǎn)品通過評測,完成測試數(shù)量171個。
根據(jù)評測的數(shù)據(jù)統(tǒng)計,測評包括現(xiàn)在全球最大規(guī)模的測試數(shù)據(jù)集100TB,虛擬主機,測試最大基礎能力集群規(guī)模是10000節(jié)點批處理平臺,在性能測試規(guī)模測試中,華為300節(jié)點、阿里300節(jié)點、新華三200節(jié)點。下圖是對測評產(chǎn)品的統(tǒng)計,哪些企業(yè)具有更多的產(chǎn)品監(jiān)測,前十有星環(huán)信息、阿里、騰訊云等。明顯可以看到這些產(chǎn)品的基礎能力和性能相對于其他的產(chǎn)品更加嚴格。
二、測試觀察
測試觀察部分主要針對這批產(chǎn)品能力測試的概覽,以及概覽中發(fā)現(xiàn)的一些有用信息。第八批里兩個比較有特點的是華為512節(jié)點大規(guī)模集群的能力和新華三200節(jié)點能力集群。
觀察一:大數(shù)據(jù)基礎產(chǎn)品的穩(wěn)定與變化
分布式批處理平臺產(chǎn)品已經(jīng)成熟穩(wěn)定,總體來看73%的產(chǎn)品是基于HDP和CDH的開源版本進行二次開發(fā),23%基于開源社區(qū)或者完全自研。經(jīng)過10多年的發(fā)展,大數(shù)據(jù)基礎技術(shù)開源生態(tài)趨向成熟,國內(nèi)技術(shù)人員對開源生態(tài)群體的熟悉程度逐漸增高。
觀察二:分布式分析數(shù)據(jù)庫規(guī)模不斷突破
分析型數(shù)據(jù)庫發(fā)展加快,部分原因是Greenplum的開源讓更多廠商能使用和研究分布式分析數(shù)據(jù)庫,據(jù)統(tǒng)計參與評測的14款MPP數(shù)據(jù)庫中43%都是基于Greenplum,14%基于PostgreSQL。分布式分析數(shù)據(jù)庫正在努力突破擴展性的限制,大規(guī)模能力有很大突破,華為完成了512節(jié)點基礎能力的測試,新華三完成了200節(jié)點性能的測試。
觀察三:分布式事務數(shù)據(jù)庫產(chǎn)品迎來春天
分布式事務數(shù)據(jù)評測只做了兩批,但是從兩批情況來看,已經(jīng)測了十幾家。我們統(tǒng)計了國內(nèi)超過20-30款產(chǎn)品,這兩批測評已經(jīng)測了現(xiàn)有產(chǎn)品的近一半左右。從圖中可以看到,分布式事務數(shù)據(jù)庫基礎能力是在不斷提升的,兩批測評之間產(chǎn)品能力和水平都有了相應的提升。在架構(gòu)方面,82%的產(chǎn)品是采用中間架構(gòu),18%的產(chǎn)品使用新型一致性協(xié)議。新型產(chǎn)品基于MySQL是最多的,現(xiàn)在基于PG的廠商正在興起。
觀察四:數(shù)據(jù)管理與數(shù)據(jù)集成
在數(shù)據(jù)管理、數(shù)據(jù)集成部分,近兩年,國內(nèi)誕生了20多款數(shù)據(jù)管理軟件,由于開源生態(tài)缺乏,企業(yè)均自主研發(fā)數(shù)據(jù)管理工具。數(shù)據(jù)管理工具的標準化程度較低,需要進一步進行規(guī)范。數(shù)據(jù)集成工具是大數(shù)據(jù)生態(tài)很重要的組成,開源生態(tài)較為完備,大多數(shù)產(chǎn)品基于Kettle、Sqoop和Nifi等開源框架開發(fā)、少數(shù)企業(yè)進行自研。
觀察五:行業(yè)解決方案豐富多樣
在行業(yè)解決方案中,這里新加入了知識圖譜的測試。知識圖譜是跟行業(yè)非常相關的,我們測的有金融、公安、游戲行業(yè)。每個行業(yè)的形式都有很大不同,可能是對外的產(chǎn)品,也有可能是對內(nèi)自用的,在這種差異化中可以看到測試項里,必選項很少,大部分是可選項。數(shù)據(jù)的接入以結(jié)構(gòu)化為主,對于文本數(shù)據(jù)的關系、屬性識別還不完善,后續(xù)還值得加強,可能要有一些針對性的技術(shù)。通用知識圖譜構(gòu)建工具需求巨大。在很多不同行業(yè),在提供對外產(chǎn)品或者服務的時候,一般以對一個需求方直接進行結(jié)構(gòu)化建設,但是如果有一個共通的產(chǎn)品而不是以介入化的方式做這個產(chǎn)品會是這樣一個結(jié)果。
三、詳細結(jié)果