欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來(lái)到云服務(wù)器

大數(shù)據(jù)技術(shù)

選擇正確的大數(shù)據(jù)框架

我們被各方的數(shù)據(jù)所包圍。隨著數(shù)據(jù)每?jī)赡暝黾右槐叮瑪?shù)字世界正在快速追逐物理世界。據(jù)估計(jì),到2020年,數(shù)字宇宙將達(dá)到44個(gè)zettabytes - 與宇宙中的恒星一樣多的數(shù)字位。

數(shù)據(jù)正在增加,我們不會(huì)很快擺脫它。為了消化所有這些數(shù)據(jù)directadmin漢化,市場(chǎng)上有越來(lái)越多的分布式系統(tǒng)。在這些系統(tǒng)中,Hadoop和Spark經(jīng)常作為直接競(jìng)爭(zhēng)對(duì)手相互競(jìng)爭(zhēng)。

在決定這兩個(gè)框架中哪一個(gè)適合您時(shí),根據(jù)幾個(gè)基本參數(shù)對(duì)它們進(jìn)行比較非常重要。

性能

Spark非常閃電,并且發(fā)現(xiàn)它的性能優(yōu)于Hadoop框架。它在內(nèi)存中的運(yùn)行速度提高了100倍,在磁盤(pán)上運(yùn)行速度提高了 10倍。此外,我們發(fā)現(xiàn),它使用10倍的機(jī)器,比使用Hadoop快3倍的數(shù)據(jù)排序100 TB。

Spark是如此之快,因?yàn)樗幚韮?nèi)存中的所有內(nèi)容。得益于Spark的內(nèi)存處理,它可以為來(lái)自營(yíng)銷(xiāo)活動(dòng),物聯(lián)網(wǎng)傳感器,機(jī)器學(xué)習(xí)和社交媒體網(wǎng)站的數(shù)據(jù)提供實(shí)時(shí)分析。

但是,如果Spark和其他共享服務(wù)在YARN上運(yùn)行,則其性能可能會(huì)降低。這可能導(dǎo)致RAM開(kāi)銷(xiāo)內(nèi)存泄漏。另一方面,Hadoop輕松處理這個(gè)問(wèn)題。如果用戶傾向于批量處理,Hadoop比Spark更有效。

Hadoop和Spark都有不同的處理方式。因此,它完全取決于項(xiàng)目的需求,是否在Hadoop和Spark性能戰(zhàn)中繼續(xù)使用Hadoop或Spark。

Facebook及其與Spark框架的過(guò)渡之旅

Facebook上的數(shù)據(jù)每過(guò)一秒就會(huì)增加。為了處理這些數(shù)據(jù)并使用它來(lái)做出明智的決定,F(xiàn)acebook使用分析。為此,它使用了許多平臺(tái),如下所示:

Hive平臺(tái)執(zhí)行Facebook的一些批量分析。 用于自定義MapReduce實(shí)現(xiàn)的Corona平臺(tái)。 基于ANSI-SQL的查詢(xún)的Presto足跡。

上面討論的Hive平臺(tái)在計(jì)算上是“資源密集型的”。所以,維持這是一個(gè)巨大的挑戰(zhàn)。因此,F(xiàn)acebook決定切換到Apache Spark框架來(lái)管理他們的數(shù)據(jù)。今天,F(xiàn)acebook已經(jīng)通過(guò)集成Spark為實(shí)體排名系統(tǒng)部署了一條更快的可管理管道。

安全

Spark的安全性仍在不斷發(fā)展,因?yàn)樗壳爸恢С滞ㄟ^(guò)共享密鑰進(jìn)行身份驗(yàn)證(密碼身份驗(yàn)證)。甚至Apache Spark的官方網(wǎng)站聲稱(chēng),“存在許多不同類(lèi)型的安全問(wèn)題。Spark并不一定能防范所有事情。“

另一方面,Hadoop具有以下安全功能:Hadoop身份驗(yàn)證,Hadoop授權(quán),Hadoop審計(jì)和Hadoop加密。所有這些都與Knox Gateway和Sentry等Hadoop安全項(xiàng)目集成在一起。

一句話:在Hadoop vs Spark Security的戰(zhàn)斗中,Spark比Hadoop安全一點(diǎn)。但是,在將Spark與Hadoop集成時(shí),Spark可以使用Hadoop的安全功能。

成本

首先,Hadoop和Spark都是開(kāi)源框架,因此免費(fèi)提供。兩者都使用商用服務(wù)器,在云上運(yùn)行,似乎有一些類(lèi)似的硬件要求:

那么,如何根據(jù)成本對(duì)它們進(jìn)行評(píng)估呢?

請(qǐng)注意,Spark利用大量RAM來(lái)運(yùn)行內(nèi)存中的所有內(nèi)容。鑒于RAM的價(jià)格高于硬盤(pán),這可能會(huì)影響成本。

另一方面,Hadoop受磁盤(pán)限制。因此,您購(gòu)買(mǎi)昂貴RAM的成本得以節(jié)省。但是,Hadoop需要更多系統(tǒng)來(lái)分發(fā)磁盤(pán)I / O.

因此,在比較Spark和Hadoop框架的成本參數(shù)時(shí),組織將不得不考慮他們的要求。

如果需求傾向于處理大量的大型歷史數(shù)據(jù)directadmin授權(quán),Hadoop是繼續(xù)選擇選擇,因?yàn)橛脖P(pán)空間的價(jià)格遠(yuǎn)低于內(nèi)存空間。

另一方面,當(dāng)我們處理實(shí)時(shí)數(shù)據(jù)選項(xiàng)時(shí),Spark可以具有成本效益,因?yàn)樗褂幂^少的硬件以更快的速度執(zhí)行相同的任務(wù)。

結(jié)論:在Hadoop與Spark成本之爭(zhēng)中,Hadoop肯定會(huì)降低成本,但當(dāng)組織必須處理較少量的實(shí)時(shí)數(shù)據(jù)時(shí),Spark才具有成本效益。

便于使用

Spark框架的最大USP之一是其易用性。Spark為Scala Java,Python和Spark SQL(也稱(chēng)為Shark)提供了用戶友好且舒適的API。

Spark的簡(jiǎn)單構(gòu)建塊使編寫(xiě)用戶定義的函數(shù)變得容易。此外,由于Spark允許批處理和機(jī)器學(xué)習(xí),因此簡(jiǎn)化數(shù)據(jù)處理的基礎(chǔ)設(shè)施變得容易。它甚至包括一個(gè)交互模式,用于運(yùn)行具有即時(shí)反饋的命令。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國(guó)外vps服務(wù)器租用 夢(mèng)飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號(hào)

主站蜘蛛池模板: 四川省| 即墨市| 万盛区| 麻阳| 镇安县| 廉江市| 清河县| 津市市| 光山县| 闽侯县| 晋江市| 九江市| 卓资县| 宁蒗| 巩留县| 定陶县| 晋中市| 蒲江县| 西贡区| 丹凤县| 酒泉市| 和龙市| 汉阴县| 杭锦后旗| 开远市| 迁安市| 西藏| 北安市| 泗水县| 万州区| 寿光市| 大英县| 长泰县| 靖安县| 嘉善县| 河北省| 怀柔区| 叙永县| 平阳县| 游戏| 仲巴县|