我們被各方的數(shù)據(jù)所包圍。隨著數(shù)據(jù)每?jī)赡暝黾右槐叮瑪?shù)字世界正在快速追逐物理世界。據(jù)估計(jì),到2020年,數(shù)字宇宙將達(dá)到44個(gè)zettabytes - 與宇宙中的恒星一樣多的數(shù)字位。
數(shù)據(jù)正在增加,我們不會(huì)很快擺脫它。為了消化所有這些數(shù)據(jù),directadmin漢化,市場(chǎng)上有越來(lái)越多的分布式系統(tǒng)。在這些系統(tǒng)中,Hadoop和Spark經(jīng)常作為直接競(jìng)爭(zhēng)對(duì)手相互競(jìng)爭(zhēng)。
在決定這兩個(gè)框架中哪一個(gè)適合您時(shí),根據(jù)幾個(gè)基本參數(shù)對(duì)它們進(jìn)行比較非常重要。
性能
Spark非常閃電,并且發(fā)現(xiàn)它的性能優(yōu)于Hadoop框架。它在內(nèi)存中的運(yùn)行速度提高了100倍,在磁盤(pán)上運(yùn)行速度提高了 10倍。此外,我們發(fā)現(xiàn),它使用10倍的機(jī)器,比使用Hadoop快3倍的數(shù)據(jù)排序100 TB。
Spark是如此之快,因?yàn)樗幚韮?nèi)存中的所有內(nèi)容。得益于Spark的內(nèi)存處理,它可以為來(lái)自營(yíng)銷(xiāo)活動(dòng),物聯(lián)網(wǎng)傳感器,機(jī)器學(xué)習(xí)和社交媒體網(wǎng)站的數(shù)據(jù)提供實(shí)時(shí)分析。
但是,如果Spark和其他共享服務(wù)在YARN上運(yùn)行,則其性能可能會(huì)降低。這可能導(dǎo)致RAM開(kāi)銷(xiāo)內(nèi)存泄漏。另一方面,Hadoop輕松處理這個(gè)問(wèn)題。如果用戶傾向于批量處理,Hadoop比Spark更有效。
Hadoop和Spark都有不同的處理方式。因此,它完全取決于項(xiàng)目的需求,是否在Hadoop和Spark性能戰(zhàn)中繼續(xù)使用Hadoop或Spark。
Facebook及其與Spark框架的過(guò)渡之旅
Facebook上的數(shù)據(jù)每過(guò)一秒就會(huì)增加。為了處理這些數(shù)據(jù)并使用它來(lái)做出明智的決定,F(xiàn)acebook使用分析。為此,它使用了許多平臺(tái),如下所示:
Hive平臺(tái)執(zhí)行Facebook的一些批量分析。 用于自定義MapReduce實(shí)現(xiàn)的Corona平臺(tái)。 基于ANSI-SQL的查詢(xún)的Presto足跡。
上面討論的Hive平臺(tái)在計(jì)算上是“資源密集型的”。所以,維持這是一個(gè)巨大的挑戰(zhàn)。因此,F(xiàn)acebook決定切換到Apache Spark框架來(lái)管理他們的數(shù)據(jù)。今天,F(xiàn)acebook已經(jīng)通過(guò)集成Spark為實(shí)體排名系統(tǒng)部署了一條更快的可管理管道。
安全
Spark的安全性仍在不斷發(fā)展,因?yàn)樗壳爸恢С滞ㄟ^(guò)共享密鑰進(jìn)行身份驗(yàn)證(密碼身份驗(yàn)證)。甚至Apache Spark的官方網(wǎng)站聲稱(chēng),“存在許多不同類(lèi)型的安全問(wèn)題。Spark并不一定能防范所有事情。“
另一方面,Hadoop具有以下安全功能:Hadoop身份驗(yàn)證,Hadoop授權(quán),Hadoop審計(jì)和Hadoop加密。所有這些都與Knox Gateway和Sentry等Hadoop安全項(xiàng)目集成在一起。
一句話:在Hadoop vs Spark Security的戰(zhàn)斗中,Spark比Hadoop安全一點(diǎn)。但是,在將Spark與Hadoop集成時(shí),Spark可以使用Hadoop的安全功能。
成本
首先,Hadoop和Spark都是開(kāi)源框架,因此免費(fèi)提供。兩者都使用商用服務(wù)器,在云上運(yùn)行,似乎有一些類(lèi)似的硬件要求:
那么,如何根據(jù)成本對(duì)它們進(jìn)行評(píng)估呢?
請(qǐng)注意,Spark利用大量RAM來(lái)運(yùn)行內(nèi)存中的所有內(nèi)容。鑒于RAM的價(jià)格高于硬盤(pán),這可能會(huì)影響成本。
另一方面,Hadoop受磁盤(pán)限制。因此,您購(gòu)買(mǎi)昂貴RAM的成本得以節(jié)省。但是,Hadoop需要更多系統(tǒng)來(lái)分發(fā)磁盤(pán)I / O.
因此,在比較Spark和Hadoop框架的成本參數(shù)時(shí),組織將不得不考慮他們的要求。
如果需求傾向于處理大量的大型歷史數(shù)據(jù),directadmin授權(quán),Hadoop是繼續(xù)選擇的選擇,因?yàn)橛脖P(pán)空間的價(jià)格遠(yuǎn)低于內(nèi)存空間。
另一方面,當(dāng)我們處理實(shí)時(shí)數(shù)據(jù)選項(xiàng)時(shí),Spark可以具有成本效益,因?yàn)樗褂幂^少的硬件以更快的速度執(zhí)行相同的任務(wù)。
結(jié)論:在Hadoop與Spark成本之爭(zhēng)中,Hadoop肯定會(huì)降低成本,但當(dāng)組織必須處理較少量的實(shí)時(shí)數(shù)據(jù)時(shí),Spark才具有成本效益。
便于使用
Spark框架的最大USP之一是其易用性。Spark為Scala Java,Python和Spark SQL(也稱(chēng)為Shark)提供了用戶友好且舒適的API。
Spark的簡(jiǎn)單構(gòu)建塊使編寫(xiě)用戶定義的函數(shù)變得容易。此外,由于Spark允許批處理和機(jī)器學(xué)習(xí),因此簡(jiǎn)化數(shù)據(jù)處理的基礎(chǔ)設(shè)施變得容易。它甚至包括一個(gè)交互模式,用于運(yùn)行具有即時(shí)反饋的命令。