一.概述
???????? 當(dāng)前,hadoop發(fā)行版眾多,其中包括華為發(fā)行版(收費(fèi))、Intel發(fā)行版(收費(fèi))、Cloudera發(fā)行版(Cloudera’s Distribution Including Apache Hadoop,簡稱 CDH,免費(fèi)),Hortonworks發(fā)行版(Hortonworks Data Platform,簡稱 HDP,免費(fèi))等,這些發(fā)行版都是基于Apache Hadoop衍生而來。之所以衍生出如此眾多發(fā)行版本,主要還是因?yàn)锳pache Hadoop的開源協(xié)議:任何人可以對其進(jìn)行修改,并作為開源或商業(yè)產(chǎn)品發(fā)布/銷售。
國內(nèi)絕大多數(shù)公司發(fā)行版的收費(fèi)版本,盡管都增加一些開源版本沒有的新特性,但絕大多數(shù)公司選擇Hadoop版本時會重點(diǎn)考慮是否收費(fèi)。由上述可知,目前Hadoop的三個主要免費(fèi)版本都是國外廠商,分別是CDH、HDP,再加上Apache hadoop,而絕大多數(shù)機(jī)構(gòu)會選擇CDH版本。
二.hadoop社區(qū)版與第三方發(fā)行版的比較
1.Apache社區(qū)版
1)優(yōu)點(diǎn):
i)完全開源免費(fèi)。
ii)社區(qū)活躍。
iii)文檔、資料詳實(shí)。
2)缺點(diǎn):
i)繁雜的版本管理:版本管理混亂,各種版本眾多,使用者感到迷惑。
ii)繁瑣的集群安裝、部署、配置:安裝集群需針對所有節(jié)點(diǎn)修改大量的配置文件,效率低,易出錯。
iii)復(fù)雜的集群管理和運(yùn)維:集群的管理和運(yùn)維,需第三方的軟件支持(如:ganglia,nagois等),運(yùn)維難度大。
iv)復(fù)雜的生態(tài)環(huán)境:hadoop生態(tài)圈中,組件(如:Hive,Mahout,Sqoop,F(xiàn)lume,Spark,Oozie等)的選擇和使用,需考慮兼容性等方面的大量因素,解決這些問題耗費(fèi)大量的時間和精力。
?