欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據技術

大數據處理框架的類型、比較和選擇

說起大數據處理,一切都起源于Google公司的經典論文:《MapReduce:Simplied Data Processing on Large Clusters》。在當時(2000年左右),由于網頁數量急劇增加,Google公司內部平時要編寫很多的程序來處理大量的原始數據:爬蟲爬到的網頁、網頁請求日志;計算各種類型的派生數據:倒排索引、網頁的各種圖結構等等。這些計算在概念上很容易理解,但由于輸入數據量很大,單機難以處理。所以需要利用分布式的方式完成計算,并且需要考慮如何進行并行計算、分配數據和處理失敗等等問題。

針對這些復雜的問題,Google決定設計一套抽象模型來執行這些簡單計算,并隱藏并發、容錯、數據分布和均衡負載等方面的細節。受到Lisp和其它函數式編程語言map、reduce思想的啟發,論文的作者意識到許多計算都涉及對每條數據執行map操作,得到一批中間key/value對,然后利用reduce操作合并那些key值相同的k-v對。這種模型能很容易實現大規模并行計算。

事實上,與很多人理解不同的是,MapReduce對大數據計算的最大貢獻,其實并不是它名字直觀顯示的Map和Reduce思想(正如上文提到的,Map和Reduce思想在Lisp等函數式編程語言中很早就存在了),而是這個計算框架可以運行在一群廉價的PC機上。MapReduce的偉大之處在于給大眾們普及了工業界對于大數據計算的理解:它提供了良好的橫向擴展性和容錯處理機制,至此大數據計算由集中式過渡至分布式。以前,想對更多的數據進行計算就要造更快的計算機,而現在只需要添加計算節點。

話說當年的Google有三寶:MapReduce、GFS和BigTable。但Google三寶雖好,尋常百姓想用卻用不上,原因很簡單:它們都不開源。于是hadoop應運而生,初代Hadoop的MapReduce和HDFS即為Google的MapReduce和GFS的開源實現(另一寶BigTable的開源實現是同樣大名鼎鼎的HBase)。自此,大數據處理框架的歷史大幕正式的緩緩拉開。

一、基礎

1. 大數據的定義

“大數據”一詞的確切定義其實是很難給出的,因為不同的人(供應商、從業者、商業公司等)對它的理解也并不完全一致。通常來講,大數據是:

1) 大數據集

2) 用于處理大數據集的某類技術

此處的“大數據集”是指一個數據集的數據量太大以至于無法使用傳統工具或單機方式來處理和存儲,而處理技術包括數據接入、數據持久化存儲、數據計算和分析、數據展示(可視化)等等。

2. 大數據的特征

大數據系統的基本需求與傳統系統并沒有本質上的不同。但大數據系統雖然具有海量的數據規模,但是對數據的接入和處理速度上也有較高的要求,而且在每個階段都要對數據進行處理。這些特點還是為設計解決方案時提供了新的挑戰。

在2001年,美國Gartner公司的Doug Laney首先提出了“3V”模型來描述大數據處理系統與傳統數據處理系統的不同:

Volume

待處理數據的規模在很大程度決定了系統是否為大數據系統。大數據系統中的數據規模可能比傳統處理系統中的數據集大幾個數量級,這也為數據處理和存儲帶來了更多的挑戰。由于數據處理和存儲等工作超出了單臺計算機所能達到的性能極限,所以大數據系統通常采用集群方式。集群方式更加考驗資源的分配和協調,集群管理和任務分配算法變得越來越重要。

Velocity

大數據與其他數據系統另一個顯著的差異體現在數據的“流動”速度。在大數據系統中,數據經常從多種數據源流入系統,并且以一種近實時的方式進行處理。數據被持續不斷的接入、修改、處理和分析以便能夠跟得上新數據的接入速度。由于近實時處理可以盡早的提供有價值的信息,目前很多商業公司更加青睞于實時處理系統而不是傳統的批處理系統。

Variety

大數據系統的問題通常是其他系統所不具備的,因為它所處理的數據來源廣泛。數據源可以是應用程序的日志信息,也可以是社交媒體的用戶信息,甚至是物理設備傳感器的采集數據。不論何種數據,大數據系統的目標都是在海量數據中尋找有用的數據。

3. 大數據處理流程

那么大數據系統實際上是如何處理數據的呢?雖然不同公司的架構設計不盡相同,但我們可以總結出一個基本的流程。下面介紹的流程雖然不是適用于所有情況,但它們確實被廣泛使用。大數據處理的基本流程是:

接入數據到系統中 將數據持久化到存儲系統 計算和分析數據 展示結果(可視化)

4. 大數據處理框架的定義

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 龙井市| 郴州市| 永靖县| 临夏县| 泊头市| 贵阳市| 南开区| 玉门市| 平江县| 金华市| 股票| 恩平市| 通榆县| 江门市| 榆林市| 青冈县| 贞丰县| 台北市| 满洲里市| 惠州市| 昌吉市| 五寨县| 河池市| 桐梓县| 弥渡县| 黔南| 兴安盟| 铜鼓县| 海城市| 保亭| 台湾省| 惠州市| 宝山区| 泰来县| 依安县| 四平市| 古浪县| 德州市| 西城区| 衡水市| 南丹县|