99久久99久久久精品齐齐,国产精品日日摸夜夜添夜夜av,香蕉成人app免费看片

大數據開發之路漫漫其修遠兮，吾將上下而求索。很多入門大數據的小伙伴，可能第一個接觸到的，就是一只可愛的“小象”，也就是我們的大數據領域的數據倉庫工具hive。

這只小象給我們提供了方便類SQL查詢語言HQL來操縱數據，歐洲服務器，使得我們一開始不用編寫復雜的代碼，就可以輕松的探索數據。Hive對于熟悉傳統數據庫的同學來說，算是很友好的一個入門工具。

原理

在大數據生態中，hive一般作為數據倉庫來使用。什么是數據倉庫呢? 簡單來說就像一個大糧倉，里邊堆著各種各樣的糧食，比如小麥、玉米、土豆、大米等等。數據倉庫里是一個數據集合體，把不同數據源按照一定的形式集合統一起來。 Hive本身是不做數據存儲的，它是構建在分布式存儲系統HDFS之上，我們平常看到的表數據其實本質上來說還是HDFS的文件。 Hive把這些HDFS數據文件，通過元數據規則映射為數據庫的表，并且可以提供SQL操作的功能。 Hive總體結構比較簡單，下方是整體的hive架構圖，我們可以看到，總體有三個組件：用戶接口、元數據系統、驅動器。

用戶通過用戶接口來輸入操作指令。一般接口有三種形式：

CLI端：一般在linux服務器直接輸入hive即可進入; WEB模式：通過命令bin/hive --service hwi啟動，默認訪問9999端口; 遠程模式：一般是JDBC之類的編程接口;

Hive的核心在于驅動器，一般驅動器接收到用戶接口傳遞的一條SQL之后，會進行下面的一系列操作：

驅動器開始進行語法和語義分析生成邏輯計劃并且邏輯優化生成物理計劃發送計劃到執行引擎(常用引擎有mapredue和sprk)執行

結果返回

而元數據系統一般傳統數據庫來承載，主要記錄了包括hive表的名字，表的列和分區及其屬性，表的屬性(是否為外部表等)，表的數據所在目錄等。

常用hive語法

了解了hive的基礎原理之后呢，我們這里結合工作中一些需求，來介紹下開發同學常用的hive操作。

分組統計

作為一名SQL仔，經常會要去統計一些奇奇怪怪的指標，比如不同年齡段的UV，下單數的小時分布之類的。一般常用的分組就是group by了，然后配合上一些窗口函數， SUM、AVG、MIN、MAX、COUNT等，就可以實現我們很多統計需求了。比如下邊的統計時間段的獨立用戶數,查詢結果如下圖所示：

關聯查詢

有時候我們查詢的數據存放在不同的表中，那關聯查詢就派上用場了。所謂關聯查詢，一般就是通過兩張表相同的字段值關聯起來，同時查詢兩張表的記錄。Hive中常用關聯分內外關聯。

我們先建立兩張簡單的表tab_a和tab_b，用實例來說明關聯機制。表結構和表數據如下圖所示：

內關聯一般使用關鍵字Join或inner join ，內關聯只返回關聯上的結果。

外關聯的形式就比較多樣化了，又分為：

左外關聯：關鍵字為left [outer] join，以前邊的表為主表，返回記錄數和主表記錄一致，關聯不上的字段為null; 右外關聯：關鍵字為right [outer] join，和左外關聯相反，則是以后邊的表為主表。全外關聯：full [outer] join，返回兩個表的去重之和，關聯不上的字段為null。

行列轉換

有時候我們會遇到這樣的需求，需要把多列的數據平鋪到一行上輸出。比如查詢用戶的訪問軌跡，這時候有兩個函數就起上作用了。還是讓我們先來看看效果。

這兩個sql的作用都是把每個用戶的點擊軌跡拼接暫展示出來，其中collect_set和collect_set能夠把列數據合并，轉為一行。而兩個的唯一區別就是collect_set會進行去重。

上述講的是行轉列，還有些需求，希望我們能把列數據拆分成多行，比如數據結構如下，

Page_id StringAd_id Array

A[1,2,3] B[3,5,6] C[2,4,5]

要統計每個廣告在所有頁面出現的次數，這時候，我們可以先把同一列的數據線拆成多行，hive提供了explode展開函數，具體效果如下圖：