欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據資訊

Hulu大數據架構組認真人董西城:Spark2.0新特性與展望

9月1日,由家產和信息化部指導,中國信息通信研究院、中國通信尺度化協會主辦,數據中心同盟承辦的“2016可信云大會”在京謹慎召開。在9月2日下午的大數據分論壇上,Hulu大數據架構組認真人董西城頒發了題為《Spark2.0新特性與展望》的演講。

Hulu大數據架構組認真人董西城:Spark2.0新特性與展望

Hulu大數據架構組認真人 董西城

以下是演講實錄:

各人好,我叫董西城,本日很興奮跟各人分享Spark2.0。我我此刻是就職于美國的一家公司,做正版的美劇和影戲。主要的市場是在北美。我之前寫過Hadoop的技能黑幕這本書,主要事情是環繞Hadoop和Spark方面。

本日主要先容的是Spark2.0,我會從以下幾個角度給各人分解Spark2.0。

首先簡樸先容Spark,第二部門是會給各人談談當前Spark在互聯網公司的應用,都做什么。第三部門是Spark2.0內里新的一些特性。

第一部門,Spark2.0的簡介。

Spark主要是原自于Mapreduce,是美國的一些大學的博士一些大數據的研究,首先是Mapreduce有一些范圍性,它受限,你要實現巨大的成果,要做許多的事情。各人從名字上也可以看出來,Mapreduce的利益是寫起措施來很是簡樸,缺點是太簡樸了,以至于寫巨大的措施要做大量的事情。第二個是機能,十年前磁盤是較量便宜的,內存是較量昂貴的,當時候許多的見識都是基于磁盤上設計一些都是,而Mapreduce是這樣做的,許多的設計理念是基于磁盤舉辦的。所以導致他的機能很是低效。而到本日已經產生了變革了,磁盤已經成為已往了,所以在這塊做了一些實驗,想盡大概的在內存上做一些事情,優化框架。

別的一個配景是多種框架并存。當研究Mapreduce的這些人,在設計Mapreduce的時候,發明白其時多種框架是并存的,其時有三種并行計較的場景,第一個是批處理懲罰,好比說我要發生一個報表,來日誥日看到就可以了。最典范的是批處理懲罰,其時簡樸的是Mapreduce/Hive,第二個是交互式處理懲罰,最典范的是impala/presto,第三種是及時處理懲罰,典范的是storm。像阿里巴巴有個轉動的大屏幕,要及時的統計停止1點的時候生意業務量是幾多,那是及時的統計,及時的匯總生意業務數據,做一個匯總展示,這是一個及時數據,有一條記錄我就做一個匯總。這是多種框架并存的排場。

假如你們公司每一種應用場景都需要的話,你大概至少要有三套系統,有三個集群,這樣的話打點起來,運行起來很是的貧苦。是不是能設計一套系統辦理這三個場景,并且他們是一套,這樣的話進修起來都是統一的,接口都是統一的,維護起來也是統一的。而不是說你要搭建三套,每一套都需要單獨進修,因為它由差異的生態組成的。這樣的話,你需要三個系統,這三個系統是完全的差異的方法,你的進修本錢和運維本錢城市很是高。

那么我們做了一個實驗,Spark的特點,一個長短常的高效,統計上看,比Mapreduce快10到100倍,從數據上可以看到,Mapreduce長短常慢的框架。快幾多倍取決于詳細的場景。為什么這么高效呢?第一,它是DAG的引擎,而Mapreduce也可以把它當作DAG的引擎,可是長短常簡樸的,它只有兩個,點和邊。假如想做很是巨大的運算,長短常很是大量的功課。假如你用Mapreduce做的話這個要做四個功課,這個是通過存儲不差異的Mapreduce功課跟尾在一起的。而通用的DAG引擎,所有的數據都不需要落在這種文件系統里,直接可以通過流式的,可能是其它的方法跟尾起來。這是Spark的一個焦點的設計理念。

第二個,它可以充實的利用內存。SparK提供了充實利用內容的本領,可以把數據處理懲罰完之后做落到磁盤上可能是其它處所,長短常機動的。實際上,假如你不想用內存,可以關掉,這個時候可以做一些簡樸的運算。

別的是易用的,提供了四種編程語言,代碼量也比Mapreduce要小2到5倍。此刻有一個趨勢,就是照舊編程語言越來越受接待,藐視說Scala,python。

第三個是與Hadoop集成,可以讀寫hdfs/hbase,與YARN集成。

Spark焦點理念,一個是RDD,彈性漫衍式數據集,對漫衍式數據抽象,你可以回收其它方法來實現,也是沒有問題的。在RDD上,假如把這個數據轉成RDD后,它提供了富厚的編程接口。比說有map,filter等等,有幾多個結點都可以擴展。

Spark尚有個很是強大的方法,就是陳設方法很是的機動,你可以運行在當地,也可以運行在standalone上,也可以陳設在mesos/yarn。

Spark是一個生態系統,許多人不會編程,你可以用Spark SQL處理懲罰,你只要會寫SQL就OK了。你有圖的數據,做圖計較,可以利用Graphx,假如你想做間隔的分類,推薦等等,有一個Mllib,這樣的話,你直接操作這里提供的就OK了,Spark是一個生態系統,是一個軟件站。差異的軟件會辦理差異的問題,好比說是不是我只用SQL就行了,欠盛情思,有一些呆板進修算法不行能只用SQL來表達,大數據,包羅人工智能,這些呆板進修,深度進修已經越來越風行。這塊是SQL辦理不了的,許多必需要用APR來寫,雖然更多的是做一些及時統計,這種可以Spark SQL。跟著大數據地成長,許多許多的數據處理懲罰都逐漸的流式化,所以streaming也越來越受接待。

接下來我們看一下Spark在互聯網上的應用。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 大竹县| 凉山| 成都市| 如皋市| 榕江县| 鄂尔多斯市| 宁蒗| 西畴县| 洛宁县| 西华县| 偃师市| 固镇县| 黔南| 盐边县| 无极县| 廉江市| 友谊县| 渝北区| 苍南县| 阜康市| 长岭县| 剑河县| 牟定县| 南皮县| 浮梁县| 瑞丽市| 雷山县| 镇原县| 积石山| 通榆县| 托克托县| 临桂县| 息烽县| 旺苍县| 曲松县| 德安县| 稷山县| 定西市| 宜黄县| 泽普县| 衡南县|