一.概述
當前,hadoop發行版眾多,其中包括華為發行版(收費)、Intel發行版(收費)、Cloudera發行版(Cloudera’s Distribution Including Apache Hadoop,簡稱 CDH,免費),Hortonworks發行版(Hortonworks Data Platform,簡稱 HDP,免費)等,這些發行版都是基于Apache Hadoop衍生而來。之所以衍生出如此眾多發行版本,主要還是因為Apache Hadoop的開源協議:任何人可以對其進行修改,并作為開源或商業產品發布/銷售。
國內絕大多數公司發行版的收費版本,盡管都增加一些開源版本沒有的新特性,但絕大多數公司選擇Hadoop版本時會重點考慮是否收費。由上述可知,目前Hadoop的三個主要免費版本都是國外廠商,分別是CDH、HDP,再加上Apache hadoop,而絕大多數機構會選擇CDH版本。
二.hadoop社區版與第三方發行版的比較
1.Apache社區版
1)優點:
i)完全開源免費。
ii)社區活躍。
iii)文檔、資料詳實。
2)缺點:
i)繁雜的版本管理:版本管理混亂,各種版本眾多,使用者感到迷惑。
ii)繁瑣的集群安裝、部署、配置:安裝集群需針對所有節點修改大量的配置文件,效率低,易出錯。
iii)復雜的集群管理和運維:集群的管理和運維,需第三方的軟件支持(如:ganglia,nagois等),運維難度大。
iv)復雜的生態環境:hadoop生態圈中,組件(如:Hive,Mahout,Sqoop,Flume,Spark,Oozie等)的選擇和使用,需考慮兼容性等方面的大量因素,解決這些問題耗費大量的時間和精力。
2.第三方發行版(如:CDH,HDP等)
1)優點:
i)基于Apache協議,100%開源。
ii)版本管理簡單清晰:像Cloudera的CDH4.1.0 patch level 923.142,表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch。
iii)兼容性、安全性、穩定性強:第三方發行版通常基于穩定版的Apache Hadoop,并應用最新的補丁。同時,這些版本都經過了大量的測試驗證,有眾多的實際部署,且大量部署于各種生產環境,因此,比原生態Apache Hadoop擁有更好的兼容性、安全性和穩定性。
iv)版本更新快:例如:通常,CDH每季度會發布一個update,每年會發布一個release。
v)提供部署、安裝和配置工具:第三方發行版會提供方便易用的安裝部署和管理工具,這將不但大大提高集群部署的效率,同時后期管理和維護也會非常方便和高效。
2)缺點:
i)因為有些第三方版本會收費,這將會提高開發和運營成本。
ii)后期管理和運維都會涉及廠商鎖定問題。
三、第三方發行版間比較
1.Cloudera:目前發布最成熟的發行版本,擁有最多的部署案例,提供簡單、易用、方便、強大的部署、管理和運維工具,同時,Cloudera公司還開發并貢獻了可實時處理大數據的Impala項目。
2.Hortonworks:為使用100%開源Apache Hadoop的唯一提供商,Hortonworks首次使用Apache HCatalog的元數據服務特性,同時,其Stinger開創性、極大程度的優化了Hive項目。Hortonworks為使用者提供了一個友好、方便、易用、入門級的的沙盒工具。Hortonworks開發了很多hadoop增強特性并提交至核心主干,從而使得Apache Hadoop在Windows Server和Windows Azure等在內的Microsft Windows平臺上平穩高效的運行。