2015年,馬云拜訪名為Supercell的芬蘭游戲公司,雖然這家公司僅有180人,但是他們開發(fā)新游戲的速度特別快,公司旗下游戲DAU已經(jīng)突破1億。2016年,騰訊以86億美元收購了其84%的股權(quán),這不僅是騰訊歷史上,也是近年全球手機(jī)游戲行業(yè)最大金額的并購。這家“小公司”為什么這么牛逼?因?yàn)樗麄儼延螒蛐枰耐ㄓ?a href="http://www.qzkangyuan.com/cnidc/idcnews/xinan/2016/2613.html">數(shù)據(jù)、素材都放在一起供大家使用,實(shí)現(xiàn)了業(yè)務(wù)互通,大大提高了每個(gè)團(tuán)隊(duì)的效率。不久之后,阿里就成立了數(shù)據(jù)中臺(tái)的團(tuán)隊(duì),隨后國內(nèi)的公司也都紛紛效仿,開始架構(gòu)屬于自己的數(shù)據(jù)中臺(tái)。
什么是數(shù)據(jù)中臺(tái):
基于那次拜訪產(chǎn)生的靈感,阿里提出了“大中臺(tái),小前臺(tái)”的概念,即將業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)業(yè)務(wù)化,真正實(shí)現(xiàn)數(shù)據(jù)和業(yè)務(wù)進(jìn)行打通。阿里數(shù)據(jù)技術(shù)和產(chǎn)品部門的負(fù)責(zé)人曾說過:“很多人會(huì)把數(shù)據(jù)比作石油,馬云也說過,阿里巴巴要成為全球電子商務(wù)的水電煤。我們現(xiàn)在搭建的數(shù)據(jù)中臺(tái),就是希望扮演發(fā)電廠的角色。”
數(shù)據(jù)中臺(tái)絕對不等于數(shù)據(jù)平臺(tái),差別之一就在于是否具有業(yè)務(wù)屬性,這也是數(shù)據(jù)中臺(tái)出現(xiàn)的一個(gè)非常重要的原因,它可以支撐多個(gè)前臺(tái)業(yè)務(wù),使得數(shù)據(jù)不再是各前端業(yè)務(wù)獨(dú)立管理,真正實(shí)現(xiàn)不同業(yè)務(wù)之間的互通互融。
我就曾經(jīng)參加過的一個(gè)項(xiàng)目給大家講講數(shù)據(jù)中臺(tái)包含那些東西。
1.數(shù)據(jù)采集
為數(shù)據(jù)中臺(tái)提供匯集數(shù)據(jù)的能力,應(yīng)提供統(tǒng)一的數(shù)據(jù)獲取接入方式,數(shù)據(jù)來源包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),數(shù)據(jù)類型應(yīng)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集。傳統(tǒng)的ETL工具仍然可以復(fù)用,實(shí)現(xiàn)數(shù)據(jù)采集、轉(zhuǎn)換、加載等關(guān)鍵處理過程。
2.數(shù)據(jù)計(jì)算
為數(shù)據(jù)中臺(tái)提供統(tǒng)一的大數(shù)據(jù)計(jì)算能力,針對不同大數(shù)據(jù)處理場景,所需提供的數(shù)據(jù)計(jì)算能力也不同,一般主要包括批量離線計(jì)算、內(nèi)存計(jì)算、在線流式計(jì)算等,可用到的技術(shù)有數(shù)據(jù)挖掘,大數(shù)據(jù)分析,云計(jì)算等。
3.數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)中臺(tái)中全域數(shù)據(jù)的存儲(chǔ)中心,按照不同的數(shù)據(jù)類型,可以采用圖中一種或多種數(shù)據(jù)存儲(chǔ)系統(tǒng)的“混搭”架構(gòu)。傳統(tǒng)數(shù)據(jù)倉庫(如DB2/ORACLE)是最為穩(wěn)定的數(shù)據(jù)存儲(chǔ)方式,承載著及時(shí)性、準(zhǔn)確性要求高的企業(yè)核心應(yīng)用。分布式關(guān)系數(shù)據(jù)庫,也常簡稱為MPP數(shù)據(jù)庫,相較于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,具有高性能處理能力、高數(shù)據(jù)吞吐能力的優(yōu)勢。
NoSQL分布式數(shù)據(jù)庫屬于非關(guān)系型數(shù)據(jù)庫管理系統(tǒng),在大數(shù)據(jù)簡單存取上具備關(guān)系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。分布式文件系統(tǒng)(HDFS)是當(dāng)前最常見的大數(shù)據(jù)存儲(chǔ)方式,它具極高的性價(jià)比,擴(kuò)展性強(qiáng)。數(shù)據(jù)湖作為一種新的存儲(chǔ)大量復(fù)雜格式數(shù)據(jù),避免企業(yè)數(shù)據(jù)孤島化的數(shù)據(jù)架構(gòu)方案,可用來將不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一聚合和存儲(chǔ)。
4.數(shù)據(jù)治理
指的是為了實(shí)現(xiàn)對企業(yè)中數(shù)據(jù)資產(chǎn)價(jià)值的獲取、管控、交付等目的,基于制定的數(shù)據(jù)規(guī)范,對數(shù)據(jù)資產(chǎn)所做的一系列管理活動(dòng)。數(shù)據(jù)標(biāo)準(zhǔn)管理指對數(shù)據(jù)口徑、公共術(shù)語、參考數(shù)據(jù)、數(shù)據(jù)編碼等制定和實(shí)施標(biāo)準(zhǔn)化的管理活動(dòng)。數(shù)據(jù)模型管理負(fù)責(zé)對系統(tǒng)中核心的邏輯模型、物理模型、數(shù)據(jù)庫表、字段、視圖等進(jìn)行統(tǒng)一管控、促進(jìn)其規(guī)范化。
5.數(shù)據(jù)服務(wù)
包括了與業(yè)務(wù)相關(guān)的、可復(fù)用的一些公共技術(shù)組件或產(chǎn)品,如數(shù)據(jù)目錄、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)分析、數(shù)據(jù)開放接口、機(jī)器學(xué)習(xí)算法模型等,它們可以使用SAAS方式直接對外提供服務(wù),也可以以更小粒度如API、消息接口、文件接口、服務(wù)接口、SDK軟件包等方式只提供組件能力或數(shù)據(jù)服務(wù),內(nèi)部或外部第三方應(yīng)用不必關(guān)心底層數(shù)據(jù)準(zhǔn)備情況,直接調(diào)用數(shù)據(jù)服務(wù)模塊對外提供的服務(wù)接口,就可以方便進(jìn)行二次開發(fā),借以增強(qiáng)自身的能力。
為什么要建立數(shù)據(jù)中臺(tái):
業(yè)內(nèi)對于數(shù)據(jù)中臺(tái)建設(shè)的經(jīng)驗(yàn)還是不足的,我這里給大家講講如何建立數(shù)據(jù)中臺(tái)。
我經(jīng)在手機(jī)上常看見各種公眾號(hào)文章提及數(shù)據(jù)中臺(tái)這個(gè)概念,我也跟各個(gè)行業(yè)的一些大公司的 CIO 交流過,發(fā)現(xiàn)很多行業(yè)的大公司都開始組建大數(shù)據(jù)團(tuán)隊(duì),建設(shè)數(shù)據(jù)中臺(tái)。結(jié)合文章和交流獲取的信息,我切身感受到宏觀經(jīng)濟(jì)對技術(shù)的影響。2018 年開始經(jīng)濟(jì)下行,生意不好做了,粗放的經(jīng)營已經(jīng)不行了,隨著數(shù)據(jù)時(shí)代的來臨,越來越多的企業(yè)想通過數(shù)據(jù)驅(qū)動(dòng)來進(jìn)行精細(xì)化的運(yùn)營和數(shù)據(jù)化轉(zhuǎn)型。
對于20人以上的企業(yè)來講,如果不進(jìn)行精細(xì)化運(yùn)營,那么各種問題可能層出不窮,譬如:小到上演會(huì)議室爭奪戰(zhàn),大到各種業(yè)務(wù)團(tuán)隊(duì)不互相、辦公溝通增加成本、辦公室物資損耗現(xiàn)象嚴(yán)重等等,日復(fù)一日地惡性循環(huán),最終不但會(huì)使管理者和員工感到精疲力盡,還會(huì)驚訝地發(fā)現(xiàn):企業(yè)業(yè)績沒有翻番,管理成本和經(jīng)營成本等費(fèi)用反倒是陡然躥高,企業(yè)陷入了持續(xù)虧損的泥潭。