一、Hadoop在CDH和HDP中的使用
咱們前面學習了官方的Apache Hadoop版本,我們前面也說了,在實際工作中其實會使用CDH或者HDP,那下面我們就看一下在CDH和HDP中如何操作Hadoop。
注意了,在這里我不打算講CDH和HDP的安裝部署,意義不大,咱們是開發人員,主要側重于代碼開發,安裝部署的工作是運維人員的,咱們不能搶飯碗啊,什么都讓你做了,別人不就得喝西北風啊,這樣太不地道了,對吧。
如果確實想了解CDH是怎么安裝的,看下面我整理的CDH集群以及單機部署
不過我們在這里要演示,肯定先安裝部署了,在這里給大家分享一個好東西,不要告訴別人哦,這里面的東西目前到官網都下載不到了,沒有下載鏈接了,幸虧我之前留的有后手,提前下載了一份。
?
注:文件都比較大,尤其是HDP_3.0.1_vmware_181205.ova,有20多個G,謹慎下載,如果自己環境資源是夠的,可以嘗試下。
這兩個文件可以通過vmware打開,里面已經安裝好了CDH和HDP,可以在一臺機器上啟動,模擬正常的集群環境,這都是在官網上下載的,可以直接使用,非常簡單,我們在這主要是為了演示一下如何在CDH和HDP中操作Hadoop,其實說實話,他們在操作的時候沒有什么區別,和我們操作原生版本的Hadoop一樣,但是呢如果不帶著大家去親身感受一把,大家心里面總是感覺有點虛。
注意了,這里面的cloudera-quickstart-vm-5.13.0-0-vmware.zip這個文件目前官網已經沒有下載鏈接了
HDP_3.0.1_vmware_181205.ova目前是有的。
1、下面我們就來先演示一下CDH
先解壓,再使用vmware直接打開即可,
選擇本地的鏡像文件,在這里最好選擇centos6.7的iso鏡像文件,因為這個操作系統的版本就是centos6.7。
CentOS-6.7-x86_64-minimal.iso
沒有的話使用7也行。
注意了,這個虛擬機默認會使用4G內存,1個CPU,64G的磁盤,內存至少要4個G,太少的話有可能啟動不了,在這我把資源調大一些,內存給他分8個G,CPU分2個,這樣這個虛擬機運行會快一些,當然了,如果你本地的資源不多的話就使用默認的也可以。
接著啟動這個虛擬機即可。
在啟動之前,先把本地啟動的那幾臺虛擬機關閉掉,要不然啟動太多機器容易卡。
啟動的過程稍微有點慢,不要著急。
虛擬機啟動后,CDH中大數據的所有組件都是啟動狀態,可以在root賬號下通過jsp命令查看已啟動的服務
root賬號的密碼是cloudera
通過su命令切換到root用戶,然后輸入root用戶的密碼即可。
?
這里面除了有Hadoop的相關進程,還有其他大數據框架的進程
注意了,CDH和HDP是一個平臺,里面可以安裝很多大數據組件,Hadoop只是它里面的一個軟件而已。就類似于安卓的谷歌市場,蘋果的appstore一樣。
我們嘗試操作一下hdfs