欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)應(yīng)用

實用的大數(shù)據(jù)分析工具

硬件和軟件是良好處理數(shù)據(jù)的基本和重要組件,就第一個而言,有一些技術(shù),如大規(guī)模并行處理(MPP)架構(gòu),可以幫助快速處理。

但是,對于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的管理,有必要采用其他技術(shù),如MapReduce或Hadoop,它們負(fù)責(zé)管理結(jié)構(gòu)化,非結(jié)構(gòu)化或半結(jié)構(gòu)化信息。用于大數(shù)據(jù)分析工具須能夠在合理的計算時間內(nèi)以及在足夠精確的范圍內(nèi)處理大型數(shù)據(jù)集及海量數(shù)據(jù)。

Hadoop

它是一個通過使用簡單編程模型的計算機(jī)組分布式處理大型數(shù)據(jù)集的框架。大數(shù)據(jù)工具Hadoop支持不同的操作系統(tǒng),通常用于云中的任何平臺。

它還有兩個主要組件:用于文件存儲的每個群集節(jié)點(HDFS)上的分布式文件系統(tǒng)和MapReduce編程基礎(chǔ)結(jié)構(gòu)。HDFS文件系統(tǒng)提供容錯和高可用性的數(shù)據(jù)庫,而MapReduce可以創(chuàng)建通過結(jié)果研究從分析的數(shù)據(jù)中提取值的算法。

MapReduce

MapReduce由Google于2003年設(shè)計,被認(rèn)為是處理海量數(shù)據(jù)的先鋒平臺,也是通過分割數(shù)據(jù)文件進(jìn)行數(shù)據(jù)處理的范例,它用于可以并行處理大量信息的解決方案中相同的硬件,即PB級,同時為用戶提供對底層集群資源的輕松透明管理。MapReduce將處理分為兩個功能:Map和Reduce。

地圖功能:在執(zhí)行輸入數(shù)據(jù)的攝取和變換并且可以并行處理輸入寄存器的情況下。系統(tǒng)處理鍵值對,直接從分布式文件系統(tǒng)讀取,并使用用戶定義的函數(shù)將這些對轉(zhuǎn)換為其他中間體。每個節(jié)點負(fù)責(zé)讀取和轉(zhuǎn)換一個或多個分區(qū)的對。

減少功能:主節(jié)點按鍵對組進(jìn)行分組,并將組合結(jié)果分發(fā)到每個節(jié)點中的Reduce進(jìn)程。縮減功能應(yīng)用于與每個鍵關(guān)聯(lián)的值列表,并生成輸出值。

Apache Storm

它是一個分布式開源和開源系統(tǒng),與Hadoop相比,具有實時處理數(shù)據(jù)處理的優(yōu)勢,Hadoop專為批處理而設(shè)計。Apache Storm允許實時構(gòu)建分布式處理系統(tǒng),可以快速處理無限數(shù)據(jù)流(每個節(jié)點每秒處理超過一百萬個元組)。它具有高度可擴(kuò)展性,易于使用并保證低延遲(處理數(shù)據(jù)消息量極大,延遲最小),它還提供了一個非常簡單的架構(gòu),用于創(chuàng)建稱為拓?fù)涞膽?yīng)用程序。

Storm大數(shù)據(jù)工具基于由完整的峰值,螺栓和流量網(wǎng)絡(luò)組成的拓?fù)洹7逯凳请娏髟矗菟ㄓ糜谔幚砹魅胛镆援a(chǎn)生流出物。Storm可用于許多情況,例如實時分析,在線機(jī)器管理,連續(xù)計算和分布式RPC、ETL等。

Apache Spark

它誕生了作為解決MapReduce / Hadoop限制的替代方案。它可以在內(nèi)存中快速加載和查詢數(shù)據(jù),對迭代過程非常有用,并且還提供支持各種應(yīng)用程序的簡單編程模型。

Apache Spark兼容圖形數(shù)據(jù)庫,傳輸分析,常規(guī)批處理,即席查詢和機(jī)器學(xué)習(xí),并允許使用SQL語言查詢結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

Spark提供了比Hadoop / MapReduce執(zhí)行更多操作的能力,這有助于以更少的預(yù)算和更復(fù)雜的解決方案執(zhí)行大數(shù)據(jù)項目。它的主要優(yōu)點之一是易于使用,因為它可以用R,香港服務(wù)器租用,Python,Scala甚至Java編程。Spark有自己的計算集群管理系統(tǒng),因此它僅將Hadoop HDFS用于存儲。

Apache Flink

Flink是Apache Software Foundation的一個項目,由一個由180多個開源合作者組成的社區(qū)開發(fā)和支持,directadmin授權(quán),并在幾家公司的生產(chǎn)中使用。它被認(rèn)為是一種開源流程處理框架,允許使用單一技術(shù)對大量數(shù)據(jù)進(jìn)行實時傳輸分析。

Flink為程序員提供了極大的靈活性,可以通過使用不同的時間概念(事件時間,攝取時間,處理時間)來關(guān)聯(lián)事件; 它還提供低延遲,高吞吐量,多語言API,無序事件,容錯和一致性。

Flume

它是一種常用于Hadoop的攝取或數(shù)據(jù)收集工具。Flume是一個分布式,可靠且可用的系統(tǒng),它收集聚合并將來自許多不同來源的數(shù)據(jù)傳輸?shù)郊惺綌?shù)據(jù)倉庫,例如Hadoop分布式文件系統(tǒng)(HDFS)。它具有靈活且簡單的架構(gòu),其他架構(gòu)可處理數(shù)據(jù)流的傳輸。容錯,可調(diào)可靠性機(jī)制和故障恢復(fù)服務(wù)是它的一些功能。Flume依靠簡單的可擴(kuò)展數(shù)據(jù)模型來處理大量分布式數(shù)據(jù)源。

盡管Flume很好地補(bǔ)充了Hadoop,但它是一個可以在其他平臺上運(yùn)行的獨立組件。他以在一臺機(jī)器上執(zhí)行多個進(jìn)程的能力而聞名。通過使用Flume,用戶可以將來自多個高容量源(例如Avro RPC源和syslog)的數(shù)據(jù)傳輸?shù)浇邮掌鳎ɡ鏗DFS和HBase)以進(jìn)行實時分析。此外,F(xiàn)lume提供了一個查詢處理引擎,可以在將每批新數(shù)據(jù)傳送到指定的接收器之前對其進(jìn)行轉(zhuǎn)換。

【凡本網(wǎng)注明來源非中國IDC圈的作品,均轉(zhuǎn)載自其它媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。】

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 静海县| 政和县| 双柏县| 射阳县| 道孚县| 宜宾市| 淳安县| 长乐市| 永寿县| 高密市| 西乌珠穆沁旗| 邹平县| 东光县| 青铜峡市| 浑源县| 梅州市| 亳州市| 南宁市| 玉溪市| 栖霞市| 恩施市| 乌兰浩特市| 信宜市| 曲靖市| 疏勒县| 隆林| 福建省| 邳州市| 慈溪市| 伊通| 灵石县| 隆子县| 大埔县| 乡宁县| 双辽市| 三亚市| 大城县| 渝中区| 侯马市| 长垣县| 福贡县|