為了深入落實(shí)國家大數(shù)據(jù)戰(zhàn)略,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)交流與合作,展示我國大數(shù)據(jù)產(chǎn)業(yè)最新發(fā)展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會(huì)主辦,大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)承辦的2019大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)在北京國際會(huì)議中心隆重舉辦。
會(huì)上,來自工業(yè)和信息化部的領(lǐng)導(dǎo),我國眾多優(yōu)秀大數(shù)據(jù)領(lǐng)域服務(wù)商、行業(yè)應(yīng)用客戶、研究機(jī)構(gòu)、地方大數(shù)據(jù)主管機(jī)構(gòu)的領(lǐng)導(dǎo)和專家,將對大數(shù)據(jù)政策、產(chǎn)業(yè)、技術(shù)的現(xiàn)狀與趨勢等內(nèi)容進(jìn)行交流探討。
6月5日,在大數(shù)據(jù)前沿技術(shù)分論壇上,星環(huán)信息研發(fā)經(jīng)理季錢飛為我們帶來了《流處理的下一階段:實(shí)時(shí)智能決策引擎》。
各位來賓、各位領(lǐng)導(dǎo)大家上午好,很高興今天可以跟大家匯報(bào)一下星環(huán)科技在流處理產(chǎn)品上的進(jìn)展和一些探索性的工作。
在開始演講之前簡單做個(gè)自我介紹,我在10年-13年期間在英特爾亞太研究院工作,有幸參與發(fā)布了業(yè)內(nèi)首個(gè)hadoop的發(fā)行版本。13年年終的時(shí)候我成為星環(huán)信息科技的初創(chuàng)團(tuán)隊(duì)成員,我們一起在一年半的時(shí)間內(nèi)發(fā)布了首個(gè)基于spark的OLAP引擎。從14年到現(xiàn)在我一直負(fù)責(zé)星環(huán)的實(shí)時(shí)處理產(chǎn)品的研發(fā)工作。
今天的匯報(bào)主要包括以下三個(gè)方面:首先跟大家一起回顧一下整個(gè)流處理技術(shù)的發(fā)展歷程;然后從星環(huán)的視角跟大家一起簡單分析一下目前企業(yè)級流處理市場現(xiàn)狀;最后稍微詳細(xì)介紹一下我們目前在流處理技術(shù)上的探索性的研究和工作。
一、流處理技術(shù)的發(fā)展歷程
在介紹流處理發(fā)展歷程之前不妨看一下整個(gè)流處理技術(shù)所適用的場景,根據(jù)蓋特納的研究報(bào)告表明,流處理適用于實(shí)時(shí)數(shù)據(jù)集成、實(shí)時(shí)數(shù)據(jù)分析場景。大家用的比較多的是實(shí)時(shí)ETL和實(shí)時(shí)數(shù)倉,所有的社區(qū)、企業(yè)研發(fā)的產(chǎn)品基本上是為了解決這兩種場景而開發(fā)的。我們可以從社區(qū)和星環(huán)兩個(gè)層面看一下整個(gè)流處理組件發(fā)展的重要階段。在社區(qū)產(chǎn)品上我從storm開始接觸流處理是從事件驅(qū)動(dòng)模型開發(fā)的,有比較低的數(shù)據(jù)延遲,相對來說在復(fù)雜分析上功能支持比較有限。下一個(gè)是spark的出現(xiàn),是基于sparkstreaming的計(jì)算引擎實(shí)現(xiàn)微批處理模型,可以很方便實(shí)現(xiàn)多流之間的關(guān)聯(lián),流和表之間的統(tǒng)計(jì)分析等等,因?yàn)槭俏⑴P停舆t最多做到百毫秒的級別。接下來就是Flink,首個(gè)提出流批一體的計(jì)算引擎,充分利用了事件驅(qū)動(dòng)的處理模型,完善了上面分析的復(fù)雜功能。當(dāng)然到現(xiàn)在為止,包括Flink包括spark在延遲功能上做的已經(jīng)比較好了。
二、星環(huán)科技在流處理產(chǎn)品上的發(fā)展階段
星環(huán)科技是從2014年開始,開辟了流處理產(chǎn)品線sparkstreaming,發(fā)布了企業(yè)產(chǎn)品,在交通產(chǎn)品上得到了大規(guī)模的部署和推廣。但是在這個(gè)過程當(dāng)中我們發(fā)現(xiàn),早期的流處理用戶很多時(shí)候是用來做一些實(shí)時(shí)ETL和簡單的化療統(tǒng)計(jì),SQL是做的比較好的。我們15年支持首個(gè)基于SQL接入的平臺(tái),在市場開拓過程當(dāng)中發(fā)現(xiàn)了微批處理的弊端,延遲實(shí)在太高了,并且在spark模型上重新改寫了后段的引擎,實(shí)現(xiàn)首個(gè)融合數(shù)據(jù)驅(qū)動(dòng)的星環(huán)產(chǎn)品,在此基礎(chǔ)之上包含支持事件處理等等功能。現(xiàn)在我們還在探索一些流處理發(fā)展的趨勢。
星環(huán)從2014年開始到現(xiàn)在,流處理產(chǎn)品已經(jīng)發(fā)展經(jīng)歷了5年,服務(wù)過的客戶數(shù)量涉及十多個(gè)行業(yè),包括公安、交通、金融、能源、運(yùn)營商等等,已經(jīng)部署集群數(shù)量大概400多個(gè)物理集群,大部分是基于我們的產(chǎn)品構(gòu)建了實(shí)時(shí)分析平臺(tái)和平臺(tái)上離線的分析應(yīng)用。400多個(gè)集群上節(jié)點(diǎn)差不多5000個(gè)物理節(jié)點(diǎn),集群規(guī)模最大的節(jié)點(diǎn)數(shù)差不多200多個(gè)節(jié)點(diǎn)。我們在這么多行業(yè)、這么多客戶的合作,證明了我們流處理產(chǎn)品的可靠性和功能的完善性,也有幸接收了邀請參與制定《分布式流處理平臺(tái)技術(shù)要求與測試方法》,并且5月份順利通過分布式流處理平臺(tái)基礎(chǔ)能力測試。
通過這幾年在企業(yè)客戶的推廣和實(shí)施,我們簡單總結(jié)出來了一個(gè)企業(yè)對流處理引擎的幾個(gè)關(guān)鍵指標(biāo),包括高性能、易用性、高可用性、安全性、智能化這5個(gè)方面。為了實(shí)現(xiàn)這5個(gè)關(guān)鍵指標(biāo),我們對整個(gè)slipstream架構(gòu)從上往下設(shè)了三層:
存儲(chǔ)層用來對接各種輸入輸出;
中間計(jì)算層包括分布式流處理引擎的5個(gè)模塊——數(shù)據(jù)源管理系、輸出管理系、任務(wù)管理、分布式執(zhí)行引擎以及計(jì)算過程中的存儲(chǔ)管理;
第三層是接口層。這里分為兩個(gè)模塊,一個(gè)是slipstream的SQL解析層,方便讓用戶通過ODDC的方式進(jìn)行流式應(yīng)用的開發(fā)。第二個(gè)是流上的挖掘算法解析層,可以在流上跑機(jī)器學(xué)習(xí)的算法。