今天介紹一種大數(shù)據(jù)時(shí)代有名的列式存儲文件格式:Parquet,被廣泛用于 Spark、Hadoop 數(shù)據(jù)存儲。Parquet 的中文是鑲木地板,意思是結(jié)構(gòu)緊湊,空間占用率高。注意,Parquet 是一種文件格式!
背景
2010年 google 發(fā)表了一篇論文《Dremel: Interactive Analysis of Web-Scale Datasets》,介紹了其 Dermel 系統(tǒng)是如何利用列式存儲管理嵌套數(shù)據(jù)的,嵌套數(shù)據(jù)就是層次數(shù)據(jù),免備案主機(jī),如定義一個(gè)班級,班級由同學(xué)組成,同學(xué)的信息有學(xué)號、年齡、身高等。
Parquet 是 Dremel 的開源實(shí)現(xiàn),作為一種列式存儲文件格式,2015年稱為 Apache 頂級項(xiàng)目,后來被 Spark 項(xiàng)目吸收,作為 Spark 的默認(rèn)數(shù)據(jù)源,在不指定讀取和存儲格式時(shí),默認(rèn)讀寫 Parquet 格式的文件。
今天不介紹嵌套數(shù)據(jù)是如何映射到每一列了,簡單來說就是把不同層級的屬性拍到一級,類似降維打擊。這樣,一個(gè)嵌套數(shù)據(jù)可以看成獨(dú)立的多個(gè)屬性,每一個(gè)屬性就是一列,和表結(jié)構(gòu)差不多。
寫流程
雖然是按列存儲,但數(shù)據(jù)是一行一行來的,那什么時(shí)候?qū)?nèi)存中的數(shù)據(jù)寫文件呢?我們知道文件只能順序?qū)懀偃缑渴盏揭恍?a href="http://www.qzkangyuan.com/cnidc/bigdata/news/20170622/7354.html">數(shù)據(jù)就寫入磁盤,那就是行式存儲了。
一個(gè)解決方案是為每個(gè)列開一個(gè)文件,假如數(shù)據(jù)有 n 個(gè)屬性,就需要 n 個(gè)文件,每次寫數(shù)據(jù)就需要追加到 n 個(gè)文件中。但是對于文件格式來說,用戶肯定希望把復(fù)雜的數(shù)據(jù)存到一個(gè)文件中,而不希望管理一堆小文件(可以想象你做了一個(gè)ppt,每一頁存成了一個(gè)文件),所以一個(gè) Parquet 文件中必須存儲數(shù)據(jù)的所有屬性。
另一個(gè)解決方案是在內(nèi)存中緩存一些數(shù)據(jù),等緩存到一定量后,將各個(gè)列的數(shù)據(jù)放在一起打包,這樣各個(gè)包就可以按一定順序?qū)懙揭粋€(gè)文件中。這就是列式存儲的精髓:按列緩存打包。
文件格式
按照上邊這種方式,Parquet 在每一列內(nèi)也需要分成一個(gè)個(gè)的數(shù)據(jù)包,這個(gè)數(shù)據(jù)包就叫 Page,Page 的分割標(biāo)準(zhǔn)可以按數(shù)據(jù)點(diǎn)數(shù)(如每1000行數(shù)據(jù)打成一個(gè) Page),也可以按空間占用(如每列的數(shù)據(jù)攢到8KB合成一個(gè) Page)。
一個(gè) Page 的數(shù)據(jù)就是一列,類型相同,在存儲到磁盤之前一般都會進(jìn)行編碼壓縮,為了快速查詢、也為了解壓縮這一個(gè) Page,在寫的時(shí)候先統(tǒng)計(jì)一下最大最小值,叫做 PageHeader,存儲在 Page 的開頭,其實(shí)就是 Page 的 元數(shù)據(jù)(metadata)。PageHeader 后邊就是數(shù)據(jù)了,讀取一個(gè) Page 時(shí),可以先通過 PageHeader 進(jìn)行過濾。
Parquet 又把多個(gè) Page 放在一起存儲,叫 Column Chunk。于是,每一列都由多個(gè) Column Chunk 組成,并且也有其對應(yīng)的 ColumnChunk Metadata。注意,這只是一個(gè)完整數(shù)據(jù)的一個(gè)屬性,一個(gè)數(shù)據(jù)的多個(gè)屬性要放在多個(gè) Column Chunk 的,這多個(gè) Column Chunk 放在一起就叫做一個(gè) Row Group。
下邊這就是 Parquet 官方介紹:
magic number 就類似水印,最后有整個(gè)文件的 Metadata。還是看圖吧,Parquet 的官方文件格式圖是下面這樣的:
左邊是數(shù)據(jù),右邊是 File Metadata。
如果覺得太復(fù)雜了,可以看我畫的簡潔版:
是不是清爽很多!File Metadata 中有對應(yīng)的 Row Group Metadata,里面還有 Column Chunk Metadta,和數(shù)據(jù)的組織形式類似,亞洲服務(wù)器租用 歐洲服務(wù)器,就不展開畫了。
總結(jié)
列式存儲文件格式到底有多列,取決于每列在內(nèi)存中緩存的數(shù)據(jù)量,由于同一列的各個(gè) Page 相互獨(dú)立,如果每個(gè) Page 只緩存一個(gè)數(shù)據(jù)點(diǎn),就退化成行式存儲了(比行式存儲還差)。因此,列式存儲有一個(gè)需要注意的就是列不能太多,這是個(gè)大坑。
跟我們之前介紹的文件格式比,Parquet 只是多了幾層而已,只要掌握了文件格式的基本原理,各種文件格式都可以快速上手。