欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)的列式存儲格式:Parquet

今天介紹一種大數(shù)據(jù)時(shí)代有名的列式存儲文件格式:Parquet,被廣泛用于 Spark、Hadoop 數(shù)據(jù)存儲。Parquet 的中文是鑲木地板,意思是結(jié)構(gòu)緊湊,空間占用率高。注意,Parquet 是一種文件格式!

背景

2010年 google 發(fā)表了一篇論文《Dremel: Interactive Analysis of Web-Scale Datasets》,介紹了其 Dermel 系統(tǒng)是如何利用列式存儲管理嵌套數(shù)據(jù)的,嵌套數(shù)據(jù)就是層次數(shù)據(jù)免備案主機(jī),如定義一個(gè)班級,班級由同學(xué)組成,同學(xué)的信息有學(xué)號、年齡、身高等。

Parquet 是 Dremel 的開源實(shí)現(xiàn),作為一種列式存儲文件格式,2015年稱為 Apache 頂級項(xiàng)目,后來被 Spark 項(xiàng)目吸收,作為 Spark 的默認(rèn)數(shù)據(jù)源,在不指定讀取和存儲格式時(shí),默認(rèn)讀寫 Parquet 格式的文件。

今天不介紹嵌套數(shù)據(jù)是如何映射到每一列了,簡單來說就是把不同層級的屬性拍到一級,類似降維打擊。這樣,一個(gè)嵌套數(shù)據(jù)可以看成獨(dú)立的多個(gè)屬性,每一個(gè)屬性就是一列,和表結(jié)構(gòu)差不多。

寫流程

雖然是按列存儲,但數(shù)據(jù)是一行一行來的,那什么時(shí)候?qū)?nèi)存中的數(shù)據(jù)寫文件呢?我們知道文件只能順序?qū)懀偃缑渴盏揭恍?a href="http://www.qzkangyuan.com/cnidc/bigdata/news/20170622/7354.html">數(shù)據(jù)就寫入磁盤,那就是行式存儲了。

一個(gè)解決方案是為每個(gè)列開一個(gè)文件,假如數(shù)據(jù)有 n 個(gè)屬性,就需要 n 個(gè)文件,每次寫數(shù)據(jù)就需要追加到 n 個(gè)文件中。但是對于文件格式來說,用戶肯定希望把復(fù)雜的數(shù)據(jù)存到一個(gè)文件中,而不希望管理一堆小文件(可以想象你做了一個(gè)ppt,每一頁存成了一個(gè)文件),所以一個(gè) Parquet 文件中必須存儲數(shù)據(jù)的所有屬性。

另一個(gè)解決方案是在內(nèi)存中緩存一些數(shù)據(jù),等緩存到一定量后,將各個(gè)列的數(shù)據(jù)放在一起打包,這樣各個(gè)包就可以按一定順序?qū)懙揭粋€(gè)文件中。這就是列式存儲的精髓:按列緩存打包。

文件格式

按照上邊這種方式,Parquet 在每一列內(nèi)也需要分成一個(gè)個(gè)的數(shù)據(jù)包,這個(gè)數(shù)據(jù)包就叫 Page,Page 的分割標(biāo)準(zhǔn)可以按數(shù)據(jù)點(diǎn)數(shù)(如每1000行數(shù)據(jù)打成一個(gè) Page),也可以按空間占用(如每列的數(shù)據(jù)攢到8KB合成一個(gè) Page)。

一個(gè) Page 的數(shù)據(jù)就是一列,類型相同,在存儲到磁盤之前一般都會進(jìn)行編碼壓縮,為了快速查詢、也為了解壓縮這一個(gè) Page,在寫的時(shí)候先統(tǒng)計(jì)一下最大最小值,叫做 PageHeader,存儲在 Page 的開頭,其實(shí)就是 Page 的 元數(shù)據(jù)(metadata)。PageHeader 后邊就是數(shù)據(jù)了,讀取一個(gè) Page 時(shí),可以先通過 PageHeader 進(jìn)行過濾。

Parquet 又把多個(gè) Page 放在一起存儲,叫 Column Chunk。于是,每一列都由多個(gè) Column Chunk 組成,并且也有其對應(yīng)的 ColumnChunk Metadata。注意,這只是一個(gè)完整數(shù)據(jù)的一個(gè)屬性,一個(gè)數(shù)據(jù)的多個(gè)屬性要放在多個(gè) Column Chunk 的,這多個(gè) Column Chunk 放在一起就叫做一個(gè) Row Group。

下邊這就是 Parquet 官方介紹:

大數(shù)據(jù)的列式存儲格式:Parquet

magic number 就類似水印,最后有整個(gè)文件的 Metadata。還是看圖吧,Parquet 的官方文件格式圖是下面這樣的:

大數(shù)據(jù)的列式存儲格式:Parquet

左邊是數(shù)據(jù),右邊是 File Metadata。

如果覺得太復(fù)雜了,可以看我畫的簡潔版:

大數(shù)據(jù)的列式存儲格式:Parquet

是不是清爽很多!File Metadata 中有對應(yīng)的 Row Group Metadata,里面還有 Column Chunk Metadta,和數(shù)據(jù)的組織形式類似,亞洲服務(wù)器租用 歐洲服務(wù)器,就不展開畫了。

總結(jié)

列式存儲文件格式到底有多列,取決于每列在內(nèi)存中緩存的數(shù)據(jù)量,由于同一列的各個(gè) Page 相互獨(dú)立,如果每個(gè) Page 只緩存一個(gè)數(shù)據(jù)點(diǎn),就退化成行式存儲了(比行式存儲還差)。因此,列式存儲有一個(gè)需要注意的就是列不能太多,這是個(gè)大坑。

跟我們之前介紹的文件格式比,Parquet 只是多了幾層而已,只要掌握了文件格式的基本原理,各種文件格式都可以快速上手。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 万盛区| 昌邑市| 通榆县| 西吉县| 玉溪市| 福州市| 神农架林区| 阿拉善盟| 镇雄县| 湘潭县| 鲜城| 镇原县| 威远县| 临澧县| 屏东县| 马边| 虹口区| 改则县| 宝清县| 黄大仙区| 巴塘县| 九龙城区| 方正县| 阳新县| 曲松县| 南投县| 井陉县| 逊克县| 常山县| 武川县| 廊坊市| 万安县| 驻马店市| 政和县| 元朗区| 茶陵县| 铁岭市| 南开区| 耒阳市| 大城县| 德保县|