為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
會上,來自工業和信息化部的領導,我國眾多優秀大數據領域服務商、行業應用客戶、研究機構、地方大數據主管機構的領導和專家,將對大數據政策、產業、技術的現狀與趨勢等內容進行交流探討。
6月5日,在大數據前沿技術分論壇上,星環信息研發經理季錢飛為我們帶來了《流處理的下一階段:實時智能決策引擎》。
各位來賓、各位領導大家上午好,很高興今天可以跟大家匯報一下星環科技在流處理產品上的進展和一些探索性的工作。
在開始演講之前簡單做個自我介紹,我在10年-13年期間在英特爾亞太研究院工作,有幸參與發布了業內首個hadoop的發行版本。13年年終的時候我成為星環信息科技的初創團隊成員,我們一起在一年半的時間內發布了首個基于spark的OLAP引擎。從14年到現在我一直負責星環的實時處理產品的研發工作。
今天的匯報主要包括以下三個方面:首先跟大家一起回顧一下整個流處理技術的發展歷程;然后從星環的視角跟大家一起簡單分析一下目前企業級流處理市場現狀;最后稍微詳細介紹一下我們目前在流處理技術上的探索性的研究和工作。
一、流處理技術的發展歷程
在介紹流處理發展歷程之前不妨看一下整個流處理技術所適用的場景,根據蓋特納的研究報告表明,流處理適用于實時數據集成、實時數據分析場景。大家用的比較多的是實時ETL和實時數倉,所有的社區、企業研發的產品基本上是為了解決這兩種場景而開發的。我們可以從社區和星環兩個層面看一下整個流處理組件發展的重要階段。在社區產品上我從storm開始接觸流處理是從事件驅動模型開發的,有比較低的數據延遲,相對來說在復雜分析上功能支持比較有限。下一個是spark的出現,是基于sparkstreaming的計算引擎實現微批處理模型,可以很方便實現多流之間的關聯,流和表之間的統計分析等等,因為是微批模型,延遲最多做到百毫秒的級別。接下來就是Flink,首個提出流批一體的計算引擎,充分利用了事件驅動的處理模型,完善了上面分析的復雜功能。當然到現在為止,包括Flink包括spark在延遲功能上做的已經比較好了。
二、星環科技在流處理產品上的發展階段
星環科技是從2014年開始,開辟了流處理產品線sparkstreaming,發布了企業產品,在交通產品上得到了大規模的部署和推廣。但是在這個過程當中我們發現,早期的流處理用戶很多時候是用來做一些實時ETL和簡單的化療統計,SQL是做的比較好的。我們15年支持首個基于SQL接入的平臺,在市場開拓過程當中發現了微批處理的弊端,延遲實在太高了,并且在spark模型上重新改寫了后段的引擎,實現首個融合數據驅動的星環產品,在此基礎之上包含支持事件處理等等功能。現在我們還在探索一些流處理發展的趨勢。
星環從2014年開始到現在,流處理產品已經發展經歷了5年,服務過的客戶數量涉及十多個行業,包括公安、交通、金融、能源、運營商等等,已經部署集群數量大概400多個物理集群,大部分是基于我們的產品構建了實時分析平臺和平臺上離線的分析應用。400多個集群上節點差不多5000個物理節點,集群規模最大的節點數差不多200多個節點。我們在這么多行業、這么多客戶的合作,證明了我們流處理產品的可靠性和功能的完善性,也有幸接收了邀請參與制定《分布式流處理平臺技術要求與測試方法》,并且5月份順利通過分布式流處理平臺基礎能力測試。
通過這幾年在企業客戶的推廣和實施,我們簡單總結出來了一個企業對流處理引擎的幾個關鍵指標,包括高性能、易用性、高可用性、安全性、智能化這5個方面。為了實現這5個關鍵指標,我們對整個slipstream架構從上往下設了三層:
存儲層用來對接各種輸入輸出;
中間計算層包括分布式流處理引擎的5個模塊——數據源管理系、輸出管理系、任務管理、分布式執行引擎以及計算過程中的存儲管理;
第三層是接口層。這里分為兩個模塊,一個是slipstream的SQL解析層,方便讓用戶通過ODDC的方式進行流式應用的開發。第二個是流上的挖掘算法解析層,可以在流上跑機器學習的算法。