中國IDC圈5月20日報道,可憐的MapReduce,直到2013年尾,都是Hadoop系統(tǒng)中的要害一環(huán),在這個開源大數(shù)據(jù)處理懲罰框架中,它既是集群的資源打點器,又作為主要編程手段和處理懲罰情況存在。但如今看來,環(huán)境正在產(chǎn)生變革。
Apache Software Foundation的Hadoop 2版本添加了一個名叫YARN的新技能,代替了MapReduce的資源打點腳色,并將Hadoop成長成了逾越MapReduce批處理懲罰功課的應(yīng)用措施。今朝有許多廠商推出了SQL-on-Hadoop東西,讓用戶編寫針對Hadoop數(shù)據(jù)闡明查詢的尺度SQL,以取代MapReduce。Spark 處理懲罰引擎也應(yīng)運而生,其支持者聲稱它運行批處理懲罰功課的速度比MapReduce快100多倍,而且支持時下風(fēng)行的高級編程語言,如Java和Python 等。
跟著上述新興技能的呈現(xiàn),MapReduce已經(jīng)不再像以往那么重要,就像一個陳腐的蒸汽引擎被迫讓位于更時尚的柴油機車一樣。這個現(xiàn)實在紐約 Strata + Hadoop World 2015 集會會議后更為凸顯,在此次集會會議中,與會者遍及接頭了掙脫MapReduce的議題。用一位講話人的話說,“掙脫MapReduce,盡快和盡大概多地掙脫。”
MapReduce Geospatial 的呈現(xiàn),將這一“去MapReduce化”的情緒推向了巔峰,它是一個開源東西包,用于處理懲罰衛(wèi)星圖像和其他大型的柵格數(shù)據(jù)集。它促使開拓者轉(zhuǎn)變原有被稱為 MrGeo的開拓技能,從MapReduce轉(zhuǎn)而利用Spark。這樣做的功效是得到了更高的機能,且代碼庫容量淘汰了25%,衛(wèi)星成像闡明公司(DigitalGlobe)的闡明主管Smith 認(rèn)可,是時候為東西包起一個新的名字了。
不只僅是MapReduce, HDFS (Hadoop漫衍式文件系統(tǒng))——Hadoop的其他焦點構(gòu)成部門的代表,也有大概被代替。在Strata 集會會議上,Hadoop供給分銷商的領(lǐng)頭羊Cloudera發(fā)布了一種名為Kudu的柱狀數(shù)據(jù)存儲,作為HDFS在及時流數(shù)據(jù)闡明方面的一個潛在替代技能。 Hortonworks,另一個Hadoop供給商,推出了一個單獨的軟件來打點差異系統(tǒng)之間的數(shù)據(jù)流,HDFS的職位受到了威脅。
MapReduce和HDFS很快就會消失。盡量今朝有許多應(yīng)用措施基于二者構(gòu)建,,大量的Hadoop用戶仍會利用它們來完成一些大數(shù)據(jù)處理懲罰的需要。但今后陳設(shè)Hadoop系統(tǒng)將不再需要這兩種技能的環(huán)境將不行制止。
他們真的還會是Hadoop集群嗎?這是一個存亡攸關(guān)的問題。但Hadoop的進(jìn)化,可能身份危機也許是大數(shù)據(jù)時代帶來的易變性數(shù)據(jù)打點情況所激發(fā)厘革的一個縮影。各類干系數(shù)據(jù)庫和SQL一枝獨秀的時代一去不返了。我們糊口在一個多元的世界,這個世界存在各類技能,滿意著差異的數(shù)據(jù)處理懲罰和闡明的需要。雖然干系型軟件也在個中,另外還包羅由Hadoop,Spark,NoSQL數(shù)據(jù)庫以及其他大數(shù)據(jù)東西構(gòu)成的復(fù)雜且不絕擴(kuò)張的生態(tài)系統(tǒng)。Hadoop處于這個生態(tài)系統(tǒng)的中心位置,但這個位置并不是永久的,很大概在未來的某一天被其他技能所代替。