欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據應用

一篇文章看懂 Spark RDD

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。它產生于 UC Berkeley AMP Lab,繼承了 MapReduce 的優點,但是不同于 MapReduce 的是,Spark 可以將結果保存在內存中,一直迭代計算下去,除非遇到 shuffle 。因此 Spark 能更好的適用于數據挖掘與機器學習等要迭代的算法。值得注意的是,官網說的 Spark 是 MR 計算速度的 100 倍。僅僅適用于邏輯回歸等這樣的迭代計算。

2 Spark 的運行模式

Local 模式:多用于本機編寫、測試代碼。 Standalone 模式:這是 Spark 自帶的資源調度框架,它支持完全分布式。 Yarn 模式:這是 hadoop 里面的一個資源調度框架,Spark 同樣也可以使用。 Mesos 模式:為應用程序(如Hadoop、Spark、Kafka、ElasticSearch)提供API的整個數據中心和云環境中的資源管理和調度。

下面分別介紹一下 Standalone 和 Yarn 模式下任務流程。

Standalone-client 提交方式

提交命令如下:以官方給的計算 PI 的代碼為例。

./spark-submit  --master spark://node1:7077  --class org.apache.spark.example.SaprkPi  ../lib/spark-examples-1.6.0-hadoop2.6.0.jar  1000 

執行流程圖以及原理:

Standalone-cluster 提交方式

提交命令如下:以官方給的計算 PI 的代碼為例。

./spark-submit  --master spark://node1:7077  --deploy-mode cluster  --class org.apache.spark.example.SaprkPi  ../lib/spark-examples-1.6.0-hadoop2.6.0.jar  1000 

執行流程圖以及原理:

Yarn-cluster 提交方式

提交命令如下:以官方給的計算 PI 的代碼為例。

./spark-submit  --master yarn  --deploy-mode client  --class org.apache.spark.example.SaprkPi  ../lib/spark-examples-1.6.0-hadoop2.6.0.jar  1000 

執行流程圖以及原理:

Yarn-cluster 提交方式

提交命令如下:以官方給的計算 PI 的代碼為例。

./spark-submit  --master yarn  --deploy-mode cluster  --class org.apache.spark.example.SaprkPi  ../lib/spark-examples-1.6.0-hadoop2.6.0.jar  1000 

執行流程圖以及原理:

3 RDD

Spark core 最核心的就是 Resilient Distributed Dataset (RDD) 了,RDD 比較抽象了。源碼中 RDD.scala 中對 RDD 進行了一段描述。最主要的是下面的五個方面;

/**  * Internally, each RDD is characterized by five main properties:  *  * - A list of partitions  * - A function for computing each split  * - A list of dependencies on other RDDs  * - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)  * - Optionally, a list of preferred locations to compute each split on (e.g. block locations for  * an HDFS file)  *  * All of the scheduling and execution in Spark is done based on these methods, allowing each RDD  * to implement its own way of computing itself. Indeed, users can implement custom RDDs (e.g. for  * reading data from a new storage system) by overriding these functions.   */ 

RDD 的五大特性:

RDD 是由一系列的 Partition 組成的。 函數作用在每一個 split 上。 RDD 之間有一系列依賴關系。 分區器是作用在 K,V 格式的 RDD 上。 RDD 提供一系列最佳的位置

先記住這五個特性,之后的學習會慢慢體會到這樣設計的好處。下面是理解 RDD 的邏輯圖;

看這個圖再回頭理解一下上面的五個 RDD 的特性。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 五家渠市| 红桥区| 高清| 九龙城区| 舟曲县| 游戏| 开封县| 台南县| 宾阳县| 区。| 长岛县| 巫溪县| 老河口市| 阿尔山市| 广安市| 开原市| 金山区| 五原县| 霍州市| 信阳市| 灵丘县| 安多县| 闻喜县| 道真| 古田县| 石家庄市| 德保县| 克拉玛依市| 武清区| 旅游| 深泽县| 内乡县| 左贡县| 西平县| 兴山县| 安义县| 芷江| 大邑县| 陇南市| 洛川县| 南宁市|