狠狠综合久久av,欧美区二区三区,天天亚洲美女在线视频

下一代大數據計算引擎

自從數據處理需求超過了傳統數據庫能有效處理的數據量之后，Hadoop 等各種基于 MapReduce 的海量數據處理系統應運而生。從 2004 年 Google 發表 MapReduce 論文開始，經過近 10 年的發展，基于 Hadoop 開源生態或者其它相應系統的海量數據處理已經成為業界的基本需求。

但是，很多機構在開發自己的數據處理系統時都會發現需要面臨一系列的問題。從數據中獲取價值需要的投入遠遠超過預期。常見的問題包括：

非常陡峭的學習曲線。剛接觸這個領域的人經常會被需要學習的技術的數量砸暈。不像經過幾十年發展的數據庫一個系統可以解決大部分數據處理需求，Hadoop 等大數據生態里的一個系統往往在一些數據處理場景上比較擅長，另一些場景湊合能用，還有一些場景完全無法滿足需求。結果就是需要好幾個系統來處理不同的場景。

上圖是一個典型的 lambda 架構，只是包含了批處理和流處理兩種場景，就已經牽涉到至少四五種技術了，還不算每種技術的可替代選擇。再加上實時查詢、交互式分析、機器學習等場景，每個場景都有幾種技術可以選擇，每個技術涵蓋的領域還有不同方式的重疊。結果就是一個業務經常需要使用四五種以上的技術才能支持好一個完整的數據處理流程。加上調研選型，需要了解的數目還要多得多。

下圖是大數據領域的全景。暈了沒?

開發和運行效率低下。因為牽涉到多種系統，每種系統有自己的開發語言和工具，開發效率可想而知。而因為采用了多套系統，數據需要在各個系統之間傳輸，也造成了額外的開發和運行代價，數據的一致也難以保證。在很多機構，實際上一半以上的開發精力花在了數據在各個系統之間的傳輸上。

復雜的運維。多個系統，每個需要自己的運維，帶來更高的運維代價的同時也提高了系統出問題的可能。

數據質量難以保證。數據出了問題難以跟蹤解決。

最后，還有人的問題。在很多機構，由于系統的復雜性，各個子系統的支持和使用落實在不同部門負責。

了解了這些問題以后，對 Spark 從 2014 年左右開始迅速流行就比較容易理解了。Spark 在當時除了在某些場景比 Hadoop MapReduce 帶來幾十到上百倍的性能提升外，還提出了用一個統一的引擎支持批處理、流處理、交互式查詢、機器學習等常見的數據處理場景。看過在一個 Notebook 里完成上述所有場景的 Spark 演示，對比之前的數據流程開發，對很多開發者來說不難做出選擇。經過幾年的發展，Spark 已經被視為可以完全取代 Hadoop 中的 MapReduce 引擎。

正在 Spark 如日中天高速發展的時候，2016 年左右 Flink 開始進入大眾的視野并逐漸廣為人知。為什么呢?原來在人們開始使用 Spark 之后，發現 Spark 雖然支持各種常見場景，但并不是每一種都同樣好用。數據流的實時處理就是其中相對較弱的一環。Flink 憑借更優的流處理引擎，同時也支持各種處理場景，成為 Spark 的有力挑戰者。

Spark 和 Flink 是怎么做到這些的，它們之間又有那些異同，下面我們來具體看一下。

Spark 和 Flink 的引擎技術

這一部分主要著眼于 Spark 和 Flink 引擎的架構方面，更看重架構帶來的潛力和限制。現階段的實現成熟度和局限會在后續生態部分探討。

數據模型和處理模型

要理解 Spark 和 Flink 的引擎特點，首先從數據模型開始。

Spark 的數據模型是彈性分布式數據集 RDD(Resilient Distributed Datasets)。比起 MapReduce 的文件模型，RDD 是一個更抽象的模型，RDD 靠血緣(lineage) 等方式來保證可恢復性。很多時候 RDD 可以實現為分布式共享內存或者完全虛擬化(即有的中間結果 RDD 當下游處理完全在本地時可以直接優化省略掉)。這樣可以省掉很多不必要的 I/O，是早期 Spark 性能優勢的主要原因。

Spark 用 RDD 上的變換(算子)來描述數據處理。每個算子(如 map，filter，join)生成一個新的 RDD。所有的算子組成一個有向無環圖(DAG)。Spark 比較簡單地把邊分為寬依賴和窄依賴。上下游數據不需要 shuffle 的即為窄依賴，可以把上下游的算子放在一個階段(stage) 里在本地連續處理，這時上游的結果 RDD 可以省略。下圖展示了相關的基本概念。更詳細的介紹在網上比較容易找到，這里就不花太多篇幅了。

Flink 的基本數據模型是數據流，及事件(Event)的序列。數據流作為數據的基本模型可能沒有表或者數據塊直觀熟悉，但是可以證明是完全等效的。流可以是無邊界的無限流，即一般意義上的流處理。也可以是有邊界的有限流，這樣就是批處理。