在及時(shí)數(shù)據(jù)世界里,為什么我們還這么執(zhí)著于Hadoop?按照451 Research觀測(cè)數(shù)據(jù)顯示,環(huán)繞批處理懲罰架構(gòu)的Hadoop仍然是大數(shù)據(jù)[注]的代表技能,盡量其聲譽(yù)仍然高出實(shí)際陳設(shè)環(huán)境。
Hadoop之后:大數(shù)據(jù)的將來
還沒有真正陳設(shè)Hadoop的企業(yè)大概想要再等一等。而跟著Apache Spark等其他技能(Storm、Kafka等)的呈現(xiàn),我們好像與Hadoop的批處理懲罰漸行漸遠(yuǎn),逐漸轉(zhuǎn)向及時(shí)數(shù)據(jù)的將來。
批處理懲罰不是重點(diǎn)
Cloudera的Doug Cutting是一個(gè)很是智慧的人,也是開源開拓人員,Hadoop、Lucene等大數(shù)據(jù)東西的開拓都有他的功勛。
固然Cutting認(rèn)可及時(shí)流媒體技能的重要性,但他并沒有否定面向批處理懲罰的Hadoop的代價(jià),他暗示:并不是因?yàn)槲覀円詾榕幚響土P是最好的,所以Hadoop環(huán)繞批處理懲罰而構(gòu)建。批處理懲罰(出格是MapReduce)很自然是第一步,因?yàn)樗鄬?duì)容易陳設(shè),并提供很重要的代價(jià)。在Hadoop之前,沒有步伐利用開源軟件在商品硬件存儲(chǔ)和處理懲罰千兆字節(jié)。Hadoop的MapReduce是很大的進(jìn)步。我們很難說清楚大數(shù)據(jù)的商品化對(duì)這個(gè)世界的重要性。這并不是說在Hadoop之前我們沒有存儲(chǔ)和闡明大量數(shù)據(jù),,而是Hadoop讓我們很是便宜地實(shí)現(xiàn)這個(gè)進(jìn)程。
總之,Hadoop民主化了大數(shù)據(jù)。
轉(zhuǎn)向流數(shù)據(jù)?
然而,Hadoop并沒有讓大數(shù)據(jù)闡明變得容易。正如DataStax首席布道者Patrick McFadin暗示,從企業(yè)數(shù)據(jù)挖掘代價(jià)并沒有那么簡(jiǎn)樸:我們都傳聞過存儲(chǔ)和闡明PB級(jí)數(shù)據(jù)的投資回報(bào)率的問題。谷歌、雅虎和Facebook都在從中締造驚人的代價(jià),而大部門企業(yè)都在試圖研究如何闡明所有數(shù)據(jù),第一:收集所有數(shù)據(jù);第二:理會(huì)所有數(shù)據(jù);第三:利潤(rùn)!在數(shù)據(jù)收集和利潤(rùn)之間有許多貧苦的步調(diào)。跟著企業(yè)試圖加速對(duì)及時(shí)數(shù)據(jù)的闡明本領(lǐng),新技能為他們提供了大概。
McFadin發(fā)明白這個(gè)新大數(shù)據(jù)倉(cāng)庫(kù)的要害要素。首先是一個(gè)列隊(duì)系統(tǒng),Kafka、RabbitMQ和Kinesis等。然后是流處理懲罰層,這大概包羅Storm、Spark Streaming可能Samza.對(duì)付高速存儲(chǔ),企業(yè)常常轉(zhuǎn)向Cassandra、HBase、MongoDB可能MySQL等干系型數(shù)據(jù)庫(kù)。
最有趣的是批處理懲罰仍然有用武之地。McFadin暗示,批處理懲罰此刻可用于處理懲罰,即匯總和更深入的闡明。批處理懲罰和及時(shí)的融合被稱為“Lambda架構(gòu)”,這涉及讓三個(gè)元素調(diào)和地共處:批處理懲罰、速度和處事。
換句話說,批處理懲罰仍然有用。
裁減批處理懲罰
但并不是每小我私家都同意。Zoomdata公司首席執(zhí)行官和連系首創(chuàng)人Justin Langseth認(rèn)為L(zhǎng)ambda是“不須要的”,并稱,“此刻有端到端東西可以從采購(gòu)、運(yùn)輸、存儲(chǔ)到闡明和可視化來處理懲罰數(shù)據(jù),而不需要批處理懲罰”。在他看來,批處理懲罰是大數(shù)據(jù)已往的遺留物:及時(shí)數(shù)據(jù)顯然最好應(yīng)該作為流來處理懲罰,并且還可以加載汗青數(shù)據(jù),正如你的DVR可以加載影戲《飄》可能上周的電視節(jié)目《美國(guó)偶像》到你的電視。這種區(qū)別很重要,Zoomdata認(rèn)為將數(shù)據(jù)作為流來闡明可以增加可擴(kuò)展性和機(jī)動(dòng)性,而無論數(shù)據(jù)是及時(shí)照舊汗青數(shù)據(jù)。
然而,逾越可擴(kuò)展性和機(jī)動(dòng)性長(zhǎng)處的大概是將批處理懲罰從大數(shù)據(jù)進(jìn)程移除所帶來的簡(jiǎn)樸性。Langseth認(rèn)為,“當(dāng)你不需要擔(dān)憂批處理懲罰窗口以及從批處理懲罰妨礙中規(guī)復(fù)時(shí),這可以極大地簡(jiǎn)化大數(shù)據(jù)架構(gòu)。”
流闡明代替Hadoop?
Cutting稱,還沒有那么快,Cutting認(rèn)為將來Hadoop等技能并不會(huì)完全被裁減,流闡明會(huì)得以成長(zhǎng),Cloudera的Enterprise Data Hub也是一樣。事實(shí)上,他不認(rèn)為會(huì)遍及轉(zhuǎn)向流闡明,而是為各人帶來了又一種選擇。
更有趣的是,大數(shù)據(jù)的大爆炸會(huì)讓行業(yè)催生出一些好要領(lǐng)來應(yīng)對(duì)數(shù)據(jù)處理懲罰。
我認(rèn)為我們不會(huì)再那么頻繁地看到Spark這樣的主要技能增加,跟著時(shí)間的推移,我們將會(huì)尺度化這些東西,為大大都人提供成果來滿意其大數(shù)據(jù)應(yīng)用需求。Hadoop帶來了技能爆炸,但我們大概會(huì)進(jìn)入較量正常的演化進(jìn)程,在各行業(yè)遍及利用這些技能。
DataStax社區(qū)司理Scott Hirleman同意說:“批處理懲罰并不會(huì)消失,老是會(huì)需要對(duì)大量數(shù)據(jù)的大局限闡明。”此刻各人對(duì)流闡明有極大的樂趣,但稱此刻還不清楚這種趨勢(shì)對(duì)大數(shù)據(jù)打算的影響。
總之,流闡明完全是關(guān)于“和”,而不是“可能”,這是對(duì)環(huán)繞批處理懲罰系統(tǒng)(譬喻Hadoop)的很好的增補(bǔ),但這必定不會(huì)完全代替Hadoop.