日韩精品一区二区三区三区免费 ,亚洲精品一级二级三级,欧洲午夜精品久久久

大數據Hadoop入門需要填的坑

1、Hadoop生態概況

Hadoop是一個由Apache基金會所開發的分布式系統集成架構，用戶可以在不了解分布式底層細節情況下，開發分布式程序，充分利用集群的威力來進行高速運算與存儲，具有可靠、高效、可伸縮的特點：

• 高可靠性：提供按位處理的存儲和計算能力值得用戶信賴。

• 高擴展性：可以輕松地從小量集群擴展到數以千計的節點中。

• 高效性：提供并發的分布式計算框架，處理速度非常快。

• 高容錯性：即使在少量節點宕機的情況下，也能自動完成任務。

Hadoop的核心是YARN,HDFS,Mapreduce。

2、HDFS

源自谷歌的GFS論文，發表于2013年10月，HDFS是GFS的克隆版，HDFS是Hadoop體系中數據存儲管理的基礎，它是一個高度容錯的系統，能檢測和應對硬件故障。

HDFS簡化了文件一致性模型，通過流式數據訪問，提供高吞吐量應用程序數據訪問功能，適合帶有大型數據集的應用程序，它提供了一次寫入多次讀取的機制，數據以塊的形式，同時分布在集群不同物理機器。

3、Mapreduce

源自于谷歌的MapReduce論文，"Hadoop Map/Reduce是一個使用簡易的軟件框架，基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上，并以一種可靠容錯的方式并行處理上T級別的數據集。"Hadoop將MapReduce高度抽象為兩個階段：Map階段和Reduce階段，每個階段都以Key/Value對作為過程的輸入和輸出，并可以由程序員自己選擇他們的類型。

4、HBASE(分布式列存數據庫)

源自谷歌的Bigtable論文，美國站群服務器亞洲服務器，是一個建立在HDFS之上，面向列的針對結構化的數據可伸縮，高可靠，高性能分布式和面向列的動態模式數據庫。HBase是一個分布式的、面向列的開源數據庫，該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable：一個結構化數據的分布式存儲系統”。就像Bigtable利用了Google文件系統(File System)所提供的分布式數據存儲一樣，HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數據庫，它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。

5、ZooKeeper

ZooKeeper是一個分布式的，開放源碼的分布式應用程序協調服務，是Google的Chubby一個開源的實現，它是集群的管理者，監視著集群中各個節點的狀態根據節點提交的反饋進行下一步合理操作。最終，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。ZooKeeper為其提供：文件系統與通知機制。

6、HIVE

Hive是基于Hadoop的一個數據倉庫，可以將結構化的數據文件映射為一張表，并提供類sql查詢功能，Hive底層將sql語句轉化為mapreduce任務運行。相對于用java代碼編寫mapreduce來說，Hive的優勢明顯：快速開發，人員成本低，可擴展性(自由擴展集群規模)，延展性(支持自定義函數)。

7、Flume

Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸的系統，Flume支持在日志系統中定制各類數據發送方，用于收集數據;同時，Flume提供對數據進行簡單處理，并寫到各種數據接受方(可定制)的能力。

當前Flume有兩個版本Flume 0.9X版本的統稱Flume-og，Flume1.X版本的統稱Flume-ng。由于Flume-ng經過重大重構，與Flume-og有很大不同，云主機，使用時請注意區分。

8、Yarn分布式資源管理器

YARN(Yet Another Resource Negotiator, a framework for job scheduling and cluster resource management)，Yarn是下一代mapreduce，主要解決原始的Hadoop擴展性較差，不支持多種計算框架而提出的，YARN的優秀點是什么，踐行分布式框架設計和并行化開發時有什么啟發。希望這能加深Hadoop理解和算法開發思路擴展，如TensorFlow的多核任務分配機制、分布式任務分配機制等。

9、spark

Spark是一個用來實現快速而通用的集群計算的平臺。擴展了廣泛使用的MapReduce計算模型，而且高效地支持更多的計算模式，包括交互式查詢和流處理。在處理大規模數據集的時候，速度是非常重要的。Spark的一個重要特點就是能夠在內存中計算，因而更快。即使在磁盤上進行的復雜計算，Spark依然比MapReduce更加高效。

10、Kafka

Kafka is a distributed,partitioned,replicated commit logservice。它提供了類似于JMS的特性，但是在設計實現上完全不同，此外它并不是JMS規范的實現。kafka對消息保存時根據Topic進行歸類，發送消息者成為Producer,消息接受者成為Consumer,此外kafka集群有多個kafka實例組成，每個實例(server)成為broker。無論是kafka集群，還是producer和consumer都依賴于zookeeper來保證系統可用性集群保存一些meta信息。

11、Hadoop偽分布式部署

目前而言，不收費的Hadoop版本主要有三個，都是國外廠商，分別是

1、Apache原始版本

2、CDH版本，對于國內用戶而言，絕大多數選擇該版本