欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據應用

全面解析大數據框架Hadoop主要模塊

hadoop Common: 包括Hadoop常用的工具類,由原來的Hadoop core部分更名而來。主要包括系統配置工具Configuration、遠程過程調用RPC、序列化機制和Hadoop抽象文件系統FileSystem等。它們為在通用硬件上搭建云計算環境提供基本的服務,并為運行在該平臺上的軟件開發提供了所需的API。

Hadoop Distributed File System (HDFS): 分布式文件系統,提供對應用程序數據的高吞吐量,高伸縮性,高容錯性的訪問。是Hadoop體系中數據存儲管理的基礎。它是一個高度容錯的系統,能檢測和應對硬件故障,用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型,通過流式數據訪問,提供高吞吐量應用程序數據訪問功能,適合帶有大型數據集的應用程序。

Hadoop YARN: 任務調度和集群資源管理。

Hadoop MapReduce: 基于YARN的大型數據集并行處理系統。是一種計算模型,用以進行大數據量的計算。Hadoop的MapReduce實現,和Common、HDFS一起,構成了Hadoop發展初期的三個組件。MapReduce將應用劃分為Map和Reduce兩個步驟,其中Map對數據集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。Reduce則對中間結果中相同“鍵”的所有“值”進行規約,以得到最終結果。MapReduce這樣的功能劃分,非常適合在大量計算機組成的分布式并行環境里進行數據處理。

其他模塊

Ambari: 是一種基于Web的工具,支持Apache Hadoop集群的供應、管理和監控。Ambari目前已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。Ambari還提供了一個用于查看集群健康狀況的儀表板,例如散熱圖,以及可視化查看MapReduce,Pig和Hive應用程序以及以用戶友好的方式診斷其性能特征的功能。也是5個頂級hadoop管理工具之一。

Avro: 數據序列化系統,美國站群服務器 亞洲服務器,由Doug Cutting牽頭開發,是一個數據序列化系統。類似于其他序列化機制,Avro可以將數據結構或者對象轉換成便于存儲和傳輸的格式,其設計目標是用于支持數據密集型應用,適合大規模數據的存儲與交換。Avro提供了豐富的數據結構類型、快速可壓縮的二進制數據格式、存儲持久性數據的文件集、遠程調用RPC和簡單動態語言集成等功能。

Cassandra:可擴展的多主數據庫,沒有單點故障。是一套開源分布式NoSQL數據庫系統。它最初由Facebook開發,用于儲存收件箱等簡單格式數據,集GoogleBigTable的數據模型與Amazon Dynamo的完全分布式的架構于一身Facebook于2008將 Cassandra 開源,此后,由于Cassandra良好的可擴展性,被Digg、Twitter等知名Web 2.0網站所采納,成為了一種流行的分布式結構化數據存儲方案

Cassandra是一個混合型的非關系的數據庫,類似于Google的BigTable。其主要功能比Dynamo (分布式的Key-Value存儲系統)更豐富,但支持度卻不如文檔存儲MongoDB(介于關系數據庫和非關系數據庫之間的開源產品,是非關系數據庫當中功能最豐富,最像關系數據庫的。支持的數據結構非常松散,是類似json的bjson格式,因此可以存儲比較復雜的數據類型)。Cassandra最初由Facebook開發,后轉變成了開源項目。它是一個網絡社交云計算方面理想的數據庫。以Amazon專有的完全分布式的Dynamo為基礎,結合了Google BigTable基于列族(Column Family)的數據模型。P2P去中心化的存儲。很多方面都可以稱之為Dynamo 2.0。

Chukwa:用于管理大型分布式系統的數據收集系統(2000+以上的節點, 系統每天產生的監控數據量在T級別)。它構建在Hadoop的HDFS和MapReduce基礎之上,繼承了Hadoop的可伸縮性和魯棒性。Chukwa包含一個強大和靈活的工具集,提供了數據的生成、收集、排序、去重、分析和展示等一系列功能,是Hadoop使用者、集群運營人員和管理人員的必備工具。

Hbase: 是一個分布式的、面向列的開源數據庫,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”。就像Bigtable利用了Google文件系統(File System)所提供的分布式數據存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。

HBase是一個針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態模式數據庫。和傳統關系數據庫不同,HBase采用了BigTable的數據模型:增強的稀疏排序映射表(Key/Value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。HBase提供了對大規模數據的隨機、實時讀寫訪問,同時,HBase中保存的數據可以使用MapReduce來處理,它將數據存儲和并行計算完美地結合在一起。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 藁城市| 洛阳市| 勐海县| 长沙县| 广宗县| 女性| 安徽省| 长春市| 军事| 山阳县| 沂源县| 时尚| 黄石市| 乌苏市| 泸州市| 新民市| 淮滨县| 基隆市| 安徽省| 陕西省| 信丰县| 邵东县| 南木林县| 岳西县| 南丰县| 沂水县| 北流市| 新源县| 延庆县| 右玉县| 寿光市| 辉县市| 永城市| 卢氏县| 望江县| 德惠市| 南华县| 随州市| 和平区| 田林县| 侯马市|