Hadoop在一些企業(yè)陳設時,往往會碰著多個用戶各自建設的數據處理懲罰事情的環(huán)境。這些事情都運行在同一個Hadoop系統(tǒng)上時,他們之間大概會互相斗嘴,爭奪可用的處理懲罰器資源。
David Clubb,在移動游戲平臺和市場公司Chartboost的高級數據工程師,試圖優(yōu)化大數據技能,晉升產物體驗時,也碰著了Hadoop集群打點的問題。“我們正在更新Hadoop軟件,并試圖將其遷移到新的集群,但并沒有找到監(jiān)控集群的好要領,”Clubb說道。“你可以看到事情在運行,但你卻不能看到其所利用的資源。”
這樣顯然不太好,因為低優(yōu)先級的提取、轉換和加載進程和闡明事情大概會占用CPU周期,而具有更高的優(yōu)先級的事情,譬喻及時的陳訴,所得到的 CPU周期就會相對淘汰。與此同時,集群中的一些計較節(jié)點大概沒有被充實操作,Clubb說道。這個問題促使他實現了一套新的軟件,提供一個更便捷的窗口來調查集群資源的勾當和和及時優(yōu)化處理懲罰東西的事情負載,個中包羅MapReduce、Hive和Spark等應用措施。
用了YARN,卻在原地踏步
本年安裝的Hadoop系統(tǒng)天天處理懲罰10億多個事件,建設一個復雜的數據池,以供業(yè)務產物線司理利用,通過這些數據,產物司理可以相識 Chartboost平臺被玩家和游戲開拓者利用的環(huán)境。首先,Chartboost,運行在Cloudera陳設在Amazon Web Services 云情況上的Hadoop漫衍式平臺上,僅僅依靠開源框架內置的Hadoop YARN調治措施調解其事情負載。但利用YARN,并沒有讓這家舊金山的公司能對高優(yōu)先級事情有什么非凡的處理懲罰,Clubb說。 他增補說道,Hadoop建設了一些信息,用于集群打點,但由于其開源的架構的特性,數據被分到差異的處所。廉價的劇本可以辦理的一些打點問題,但照舊不敷以辦理所有問題。
厥后,Clubb發(fā)明創(chuàng)業(yè)公司Pepperdata可以或許提供更深條理的視圖,通過該視圖可以調查Hadoop集群的I / O、內存和CPU利用環(huán)境。對付Chartboost更重要的是,Pepperdata軟件可以自動低落低優(yōu)先級事情的占用,給以高優(yōu)先級應用措施特另外運行空間,并確保集群中所有的計較節(jié)點盡大概被有效地操作。
“我們試圖找出打點事情負載的最好方法——你必定不想太過利用或未充實利用你的節(jié)點,”Clubb說道。“Pepperdata讓硬件的利用更高效。它可以動態(tài)地調解事情。” 利用這個軟件,淘汰了公司所需集群節(jié)點的數量,節(jié)省了Chartboost在云計較上的耗費。Clubb說,其Hadoop系統(tǒng)今朝有22個節(jié)點,本來的陳設時則有33個節(jié)點。
多重Hadoop打點選項
Pepperdata是很多供給商中的一員,這些供給商包羅傳統(tǒng)的系統(tǒng)打點軟件制造商,Hadoop漫衍提供者和雷同Concurrent之類的創(chuàng)業(yè)公司,他們采納差異的方法來舉辦Hadoop集群打點流程的自動化。位于Sunnyvale, Calif的Pepperdata公司首創(chuàng)人之一,Chad Carson暗示,基于處理懲罰優(yōu)先級的自適應調解是Pepperdata軟件的要害元素。 當公司把Hadoop大數據處事投入到出產利用中,IT團隊大概需要將擔保應用措施的機能作為處事程度協(xié)議的一部門,Carson 說。他認為,領略如何操作Hadoop集群資源,并按照所需進動作態(tài)修改,對付企業(yè)來說會越來越重要。
Hadoop生態(tài)系統(tǒng)的新成員,好比Apache Spark處理懲罰引擎,大概會進一步加劇集群打點問題,Carson增補說。“Spark能做的更多,也更快,”他說。”但它在利用中存在岑嶺期,你會看到 Spark的事情滋擾到了其他事情。可能你會看到一個Spark或HBase事情負載被延遲所約束,或被低優(yōu)先級的MapReduce[事情]過問干與。”
Hadoop集群打點中的“交通警員”
像Pepperdata一類的軟件可以輔佐企業(yè)辦理一些阻礙Hadoop利用的問題,,Mike Matchett—位于Hopkinton, Mass的 Taneja Group公司闡明師如是說。 “做一個應用措施機能打點系統(tǒng)是一回事——而做一個可以動態(tài)地優(yōu)化系統(tǒng)的及時節(jié)制器是別的一碼事,”Matchett 說道。“假如陳設了一個大的集群,且用于多重用途,那么你就需要一個“交通警員”。 對付Clubb來說,下一步大概會增加Spark的利用,以處理懲罰Hadoop數據。他提到,早前的事情,利用Pepperdata的軟件支持處理懲罰引擎對 Chartboost有了努力的功效。Clubb說,他有信心可以遷移更多的事情流到Spark,且不會碰著之前的集群打點問題,“更多事情意味著你更有大概耗盡所有的資源。”