欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)架構(gòu)如何做到流批一體?

數(shù)據(jù)與現(xiàn)有的科技手段結(jié)合,對大多數(shù)產(chǎn)業(yè)而言都能產(chǎn)生巨大的經(jīng)濟及社會價值。這也是當(dāng)下許多企業(yè),在大數(shù)據(jù)上深耕的原因。大數(shù)據(jù)分析場景需要解決哪些技術(shù)挑戰(zhàn)?目前,有哪些主流大數(shù)據(jù)架構(gòu)模式及其發(fā)展?今天,我們都會一一解讀,并介紹如何結(jié)合云上存儲、計算組件,實現(xiàn)更優(yōu)的通用大數(shù)據(jù)架構(gòu)模式,美國服務(wù)器租用,以及該模式可以涵蓋的典型數(shù)據(jù)處理場景。

數(shù)據(jù)處理的挑戰(zhàn)

現(xiàn)在已經(jīng)有越來越多的行業(yè)和技術(shù)領(lǐng)域需求大數(shù)據(jù)分析系統(tǒng),例如金融行業(yè)需要使用大數(shù)據(jù)系統(tǒng)結(jié)合 VaR(value at risk) 或者機器學(xué)習(xí)方案進(jìn)行信貸風(fēng)控,零售、餐飲行業(yè)需要大數(shù)據(jù)系統(tǒng)實現(xiàn)輔助銷售決策,各種 IOT 場景需要大數(shù)據(jù)系統(tǒng)持續(xù)聚合和分析時序數(shù)據(jù),各大科技公司需要建立大數(shù)據(jù)分析中臺等等。

抽象來看,支撐這些場景需求的分析系統(tǒng),面臨大致相同的技術(shù)挑戰(zhàn): 業(yè)務(wù)分析的數(shù)據(jù)范圍橫跨實時數(shù)據(jù)和歷史數(shù)據(jù),既需要低延遲的實時數(shù)據(jù)分析,也需要對 PB 級的歷史數(shù)據(jù)進(jìn)行探索性的數(shù)據(jù)分析; 可靠性和可擴展性問題,用戶可能會存儲海量的歷史數(shù)據(jù),同時數(shù)據(jù)規(guī)模有持續(xù)增長的趨勢,需要引入分布式存儲系統(tǒng)來滿足可靠性和可擴展性需求,同時保證成本可控; 技術(shù)棧深,需要組合流式組件、存儲系統(tǒng)、計算組件和; 可運維性要求高,復(fù)雜的大數(shù)據(jù)架構(gòu)難以維護(hù)和管控;

簡述大數(shù)據(jù)架構(gòu)發(fā)展

Lambda 架構(gòu)

Lambda 架構(gòu)是目前影響最深刻的大數(shù)據(jù)處理架構(gòu),它的核心思想是將不可變的數(shù)據(jù)以追加的方式并行寫到批和流處理系統(tǒng)內(nèi),隨后將相同的計算邏輯分別在流和批系統(tǒng)中實現(xiàn),并且在查詢階段合并流和批的計算視圖并展示給用戶。Lambda的提出者 Nathan Marz 還假定了批處理相對簡單不易出現(xiàn)錯誤,而流處理相對不太可靠,因此流處理器可以使用近似算法,快速產(chǎn)生對視圖的近似更新,而批處理系統(tǒng)會采用較慢的精確算法,產(chǎn)生相同視圖的校正版本。

圖 1 Lambda架構(gòu)示例

Lambda架構(gòu)典型數(shù)據(jù)流程是():

所有的數(shù)據(jù)需要分別寫入批處理層和流處理層; 批處理層兩個職責(zé):(i)管理 master dataset (存儲不可變、追加寫的全量數(shù)據(jù)),(ii)預(yù)計算batch view; 服務(wù)層對 batch view 建立索引,以支持低延遲、ad-hoc 方式查詢 view; 流計算層作為速度層,對實時數(shù)據(jù)計算近似的 real-time view,作為高延遲batch view 的補償快速視圖; 所有的查詢需要合并 batch view 和 real-time view;

Lambda 架構(gòu)設(shè)計推廣了在不可變的事件流上生成視圖,并且可以在必要時重新處理事件的原則,該原則保證了系統(tǒng)隨需求演進(jìn)時,始終可以創(chuàng)建相應(yīng)的新視圖出來,切實可行地滿足了不斷變化的歷史數(shù)據(jù)和實時數(shù)據(jù)分析需求。

Lambda 架構(gòu)的四個挑戰(zhàn)

Lambda 架構(gòu)非常復(fù)雜,在數(shù)據(jù)寫入、存儲、對接計算組件以及展示層都有復(fù)雜的子課題需要優(yōu)化: 寫入層上,Lambda 沒有對數(shù)據(jù)寫入進(jìn)行抽象,而是將雙寫流批系統(tǒng)的一致性問題反推給了寫入數(shù)據(jù)的上層應(yīng)用; 存儲上,以 HDFS 為代表的master dataset 不支持?jǐn)?shù)據(jù)更新,云服務(wù)器租用,持續(xù)更新的數(shù)據(jù)源只能以定期拷貝全量 snapshot 到 HDFS 的方式保持?jǐn)?shù)據(jù)更新,數(shù)據(jù)延遲和成本比較大; 計算邏輯需要分別在流批框架中實現(xiàn)和運行,而在類似 Storm 的流計算框架和Hadoop MR 的批處理框架做 job 開發(fā)、調(diào)試、問題調(diào)查都是比較復(fù)雜的;

結(jié)果視圖需要支持低延遲的查詢分析,通常還需要將數(shù)據(jù)派生到列存分析系統(tǒng),并保證成本可控。

流批融合的 Lambda 架構(gòu)

針對 Lambda 架構(gòu)的問題3,計算邏輯需要分別在流批框架中實現(xiàn)和運行的問題,不少計算引擎已經(jīng)開始往流批統(tǒng)一的方向去發(fā)展,例如 Spark 和 Flink,從而簡化lambda 架構(gòu)中的計算部分。實現(xiàn)流批統(tǒng)一通常需要支持:

以相同的處理引擎來處理實時事件和歷史回放事件; 支持 exactly once 語義,保證有無故障情況下計算結(jié)果完全相同; 支持以事件發(fā)生時間而不是處理時間進(jìn)行窗口化。

Kappa架構(gòu)

Kappa 架構(gòu)由 Jay Kreps 提出,不同于 Lambda 同時計算流計算和批計算并合并視圖,Kappa 只會通過流計算一條的數(shù)據(jù)鏈路計算并產(chǎn)生視圖。Kappa 同樣采用了重新處理事件的原則,對于歷史數(shù)據(jù)分析類的需求,Kappa 要求數(shù)據(jù)的長期存儲能夠以有序 log 流的方式重新流入流計算引擎,重新產(chǎn)生歷史數(shù)據(jù)的視圖。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 凤阳县| 确山县| 贵南县| 隆昌县| 凤凰县| 西丰县| 长垣县| 沁水县| 宣化县| 福州市| 揭东县| 沙洋县| 抚宁县| 凉城县| 隆化县| 观塘区| 天峻县| 亚东县| 东乌| 潮州市| 任丘市| 电白县| 陆丰市| 祁连县| 辛集市| 沽源县| 宁陵县| 云安县| 惠来县| 集贤县| 阜南县| 尼勒克县| 安乡县| 吐鲁番市| 观塘区| 平阴县| 南江县| 南投县| 北流市| 慈利县| 凌云县|