固然Hadoop可以運行在便宜的商品計較機硬件,且用戶很容易添加節點,可是它有一些細節是很昂貴的,尤其是你在出產情況中運行Hadoop。
甲骨文公司大數據產物司理Jean-Pierre Dijck稱:“IT部分認為‘我已經有處事器,我還可以買到自制的處事器,我也有人員,所以我們不消花幾多錢就可以構建本身的Hadoop集群’,這雖然是一件功德,可是IT部分在陳設時會發明這里會有許多他們沒有預推測的特別開銷。”
Dijcks羅列了IT率領在DIY Hadoop集群時的5個常見錯誤:
1.他們試圖以便宜的方法構建Hadoop
許多IT部分不清楚Hadoop集群應該完成什么使命(除了闡明某些范例的數據),所以他們會購置盡大概自制的處事器。
“Hadoop被認為是可自愈的,所以當處事器的一個節點呈現妨礙,構不成大問題,”Dijcks稱,“但假如你購置便宜的處事器,許多節點呈現妨礙那么你就要花更多時間來修復硬件,假如一大堆節點都不運行了,這就會造成大問題。”
假如你的Hadoop集群只是嘗試,那么以上這些大概不是問題。然而,許多嘗試性項目凡是最后城市進入出產情況。IT部分認為,“我們已經投入了大量的時間,我們已經做了許多事情,此刻我們需要將其投入出產,”Dijcks說道,“在嘗試期間,假如情況呈現問題,只要從頭啟動即可,但在出產情況,集群需要可以或許抵制硬件妨礙、工錢交互妨礙以及任何大概產生的工作。”
Forrester公司在其2016年第二季度陳訴“大數據Hadoop優化系統”中指出,我們需要大量時間和精神用于安裝、設置、調試、進級和監控通用Hadoop平臺的基本設施,而預設置Hadoop優化系統可提供更快的時間代價、低落本錢、最小化打點事情以及模塊化擴展成果。
2.太多“廚師”
大大都IT部分將本成分為軟件、硬件和網絡組,而Hadoop集群超過了這些分組,所以DIY Hadoop集群最終會成為許多有說服力的“廚師”的產品。
Dijcks稱:“在這種環境中,你有一個食譜來參考,但認真差異規模的人并不會完全遵循食譜,因為他們喜歡與食譜要求略有差異的做法。“所以最終,Hadoop集群不會憑據預期那樣運行。
在舉辦妨礙解除后,系統應該可以或許啟動以及讓IT運營人員在出產情況中運行,但Dijcks稱:“這是另一個進修曲線開始的處所,他們大概不熟悉Hadoop集群,你會看到許多工錢錯誤、停機時間等一系列問題。”
3.他們沒有意識到Hadoop DIY項目是特洛伊木馬
在Hadoop集群轉移到出產情況后,企業凡是會發明他們需要布置專門的事戀人員來保持其運行。Dijcks稱:“雖然,這個事戀人員的大部門時間耗費在維護上,而不是創新。”另外,這名事戀人員還需要相識Hadoop系統。
他告誡道:“你不能期望人們在很短時間內釀成Hadoop專家。”縱然你雇傭履歷富厚的事戀人員,但IT情況差別性很大--DIY Hadoop集群組件也是如此。因此,在你特定情況中的所有設置、毗連和彼此干系都需要花時間來相識。
4. 他們低估了更新的巨大性和頻率
新版Hadoop(譬喻來自Cloudera和Hortonworks)每三個月宣布一次,這些凡是包括新特性、新成果、更新、裂痕修復等。
“除了保持Hadoop集群運行所需的所有人類操縱外,每三個月城市有新的進級版本,”Dijcks稱,“你完成進級的那一刻,你必需開始籌劃下一次進級。這相當巨大,所以有些人開始跳過更新。”縱然你跳過屢次更新,最終你照舊會需要更新,譬喻從5.4進級到5.7。
固然Cloudera和Hortonworks會實驗測試盡大概多的場景,“他們不能測試你特定操縱系統版本可能對特定事情操縱的影響,”Dijcks稱,“你的情況大概有思科路由器可能Red Hat操縱系統可能IBM硬件,同時,假如這個集群正用于大數據出產項目,而你需要更新時,就有大概會制造出明明的停機時間。”
5. 他們沒有籌備好應對安詳挑戰
在Hadoop早期,域名免費備案 directadmin購買,安詳沒有被視為一個大問題,因為集群仍位于防火墻后頭。而此刻,安詳已經成為最大的問題。
今朝Kerberos身份驗證已經內置到Hadoop來辦理這些問題,但有些IT企業不知道如那里理懲罰此協議,“整合Kerberos到企業的Active Directory很是巨大,”他暗示,“你需要在Active Directory和一系列組件之間舉辦很是多集成事情。且這方面的文檔很是少,最要命的是這涉及到安詳打點員和IT其他團隊,這些人員險些是利用完全差異的語言。”