2. ?spark SQL編程
2.1 創建DataFrame
- 在Spark SQL中SparkSession是創建DataFrame和執行SQL的入口,創建DataFrame有三種方式:
- 通過Spark的數據源進行創建;
- 從一個存在的RDD進行轉換;
- 還可以從Hive Table進行查詢返回。
2.2 從Spark數據源進行創建
(1)數據準備,在/opt/module/spark-local目錄下創建一個user.json文件
{"age":20,"name":"qiaofeng"}
{"age":19,"name":"xuzhu"}
{"age":18,"name":"duanyu"}
(2)查看Spark支持創建文件的數據源格式,使用tab鍵查看
scala> spark.read.
csv ?format ?jdbc ?json ?load ?option ?options ?orc ?parquet ?schema ?table ?text ?textFile
(3)讀取json文件創建DataFrame
scala> val df = spark.read.json("/opt/module/spark-local/user.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
(4)查看DataFrame算子
scala> df.
(5)展示結果
scala> df.show
+---+--------+
|age| ? ?name|
+---+--------+
| 20|qiaofeng|
| 19| ? xuzhu|
| 18| ?duanyu|
+---+--------+
?