一、目的:
為了實現公司項目對海量業務數據、文件進行存儲,系統間共享,并且達到以下幾點要求,可行方案hadoop集群。
? ? 數據安全?
? ? 需要實現數據冗余,避免數據的單點故障
? ? 可線性擴展?
? ? 當數據增長到TB、甚至PB以上時,存儲方案需要支持可線性擴展
? ? 存儲高可用?
? ? 某個存儲服務宕掉時,不影響整體存儲方案的可用
? ? 性能?
? ? 性能達到應用要求
二、版本選擇:
目前而言,不收費的Hadoop版本主要有三個(均是國外廠商),分別是:
Apache(最原始的版本,所有發行版均基于這個版本進行改進)。
Hortonworks版本(Hortonworks Data Platform,簡稱“HDP”)。
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱CDH)。
對比:
(1)Apache版本建議學習使用,不建議在生產環境使用。
(2)Hortonworks 主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統。HCatalog,一個元數據管理系統。
(3)Cloudera 最成型的發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。Cloudera開發并貢獻了可實時處理大數據的Impala項目,Cloudera有免費版和企業版,企業版只有60天試用期,不過基本上免費版也滿足生產環境的使用,監控工具為中文,不過Cloudera的代碼不開源,只能通過產生本身的BUG修改補丁升級等。
三、hortonworks簡介
需求使用到的分別為Apache Ambari和HDP和HDP-UTILS。
Apache Ambari是一個基于web的工具,用于配置、管理和監視Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapReduce、Pig、Hive應用程序的能力,以友好的用戶界面對它們的性能特性進行診斷。
HDP是hortonworks的軟件棧,里面包含了hadoop生態系統的所有軟件項目,比如HBase,Zookeeper,Hive,Pig等等。
HDP-UTILS是工具類庫。