爽好多水快深点欧美视频,国产精品99久久久久久动医院,91九色在线播放

中國IDC圈3月16日報道：最近知乎上有這樣一個問題“為什么許多公司都回收Hadoop 方案處理懲罰大數據業務”，引來許多答復，筆者整理如下，其概念或有時而可商，接待接頭。

先說一說什么樣的公司較量傾向于利用Hadoop。有人認為，利用Hadoop的前提是自身有沒有收集并闡明數據的需要，而且數據量是否一直在增長而且不行揚棄。

今朝看起來，此類數據大都為日志數據，闡明用戶習慣，可能就是傳感器之類的數據，闡明情況等監控內容的變革紀律。也有許多公司不利用Hadoop，好比多數從事當局行業可能部門企業系統開拓的公司，他們對系統的易陳設及易維護性要求更高，固然也會碰著一部門數據量較大，不外凡是利用NoSQL數據庫就可以或許滿意需要了，很少利用Hadoop。

這又回到了一句老話，任何技能，都是為了辦理問題而存在的，沒有須要為了技能而技能!

那么，利用Hadoop的公司為什么選擇Hadoop呢?選擇Hadoop，其實是選擇的的MapReduce，把大塊的任務切分為若干份小任務，由集群的每臺處事器來計較，最后把功效歸并。

有人認為，主要有三點：1，可以辦理問題; 2，本錢低 ; 3，成熟的生態圈。

一、Hadoop為大數據而生

在誰人沒有Hadoop的時代，各人是怎么處理懲罰大量數據的呢?IBM的大型機是一個很不錯的辦理方案。

中國的銀行系統今朝很大一部門還在大型機上。可是大型機太貴了，實在是太貴了。

于是Google來了，顛末審慎的思考，Google的工程師們發明實際上利用一個簡樸得漫衍式計較模子MapReduce就能完成他們的需求。然后他們就搞了一個MapReduce。然后就寫了幾篇關于這種計較要領的論文。

有了思想，并且有了Google這么大數據量的數據驗證，復制技能就很容易了。于是各人就開始搞，然后各人就搞出來一個Hadoop。并且Hadoop是Apache 下的項目，正所謂大樹底下好納涼。

Hadoop底層的漫衍式文件系統具有高拓展性，通過數據冗余擔保數據不丟失和提交計較效率，同時可以存儲各類名目標數據。同時其還支持多種計較框架，既可以舉辦離線計較也可以舉辦在線及時計較。

二、為什么本錢可以節制的低

確定可以辦理我們碰著的問題之后，那就必需思量下本錢問題了。

1，硬件本錢

Hadoop是架構在便宜的硬件處事器上，不需要很是昂貴的硬件做支撐

2，軟件本錢

開源的產物，免費的，基于開源協議，可以自由修改，可控性更大

3，開拓本錢

因為屬于二次開拓，同時因為有很是活潑的社區接頭，對開拓人員的本領要求相對不高，工程師的進修本錢也并不高

4，維護本錢

當集群局限很是大時，開拓本錢和維護本錢會凸顯出來。可是相對付自研系統來說的話，照舊自制的許多。

某司自研同類系統幾百名工程師近4年的投入，燒錢億計，都尚未替換掉Hadoop。

5，其他本錢

如系統的安詳性，社區版本進級頻繁而現實是無法同步舉辦進級所引入的其他隱形本錢。

三、成熟的生態圈

部門系統歸類：

陳設，設置和監控 Ambari，，Whirr

監控打點東西 Hue, karmasphere, eclipse plugin, cacti, ganglia

數據序列化處理懲罰與任務調治 Avro, Zookeeper

數據收集 Fuse,Webdav, Chukwa, Flume, Scribe ， Nutch

數據存儲 HDFS

類SQL查詢數據客棧 Hive

流式數據處理懲罰 Pig

并行計較框架 MapReduce， Tez

數據挖掘和呆板進修 Mahout

列式存儲在線數據庫 HBase

元數據中心 HCatalog (可以和Pig，Hive ,MapReduce等團結利用)

事情流節制 Oozie，Cascading

數據導入導出到干系數據庫 Sqoop，Flume， Hiho

數據可視化 drilldown，Intellicus

傳統數據庫數據客棧VS.Hadoop

再從傳統數據庫數據客棧這邊看，一方面吃著現有的蛋糕，另一方面也一直在實驗數據量更大、擴展性更好的辦理方案，從share-everything到 share-storage到share-nothing，好比此刻的MPP辦理方案，也在大數據業務中分了一杯羹。不外數據庫基因的辦理方案，照舊要面臨擴展性的問題，我們的履歷是或許百節點級別，遠遠不如hadoop的擴展性。

hadoop最偉大的處所，嚴格說是google的偉大，就是在擴展性瓶頸方面的打破了。擴展性一直是所謂大數據(以前叫海量數據)處理懲罰的瓶頸，擴展性上去了，有更多呆板來干活，那同時醒目的活也就多了嘛。以前處理懲罰海量數據的思路，是搞一臺超等牛的呆板，好比高機能計較機，好比大型機、小型機;厥后一臺機器怎么也不足用了，就搞個幾臺連起來一起用，好比網格，好比漫衍式數據庫數據客棧，不外這擴展性也就是幾臺十幾臺級此外，再多也無法提高了;而 hadoop，放棄磁盤陣列而利用當地硬盤作為存儲，使得網絡毗連方法大大簡化，從軟件層面來辦理許多硬件問題，好比硬盤妨礙，淘汰對硬件的依賴，這些保證了hadoop甩出其他方案幾個量級的擴展機能，人類看到了處理懲罰大數據的曙光。