20世紀90年月,每臺應用處事器往往都擁有直接毗連存儲(DAS)。建設存儲區域網絡(SAN),是為了提供共享的存儲池,以得到更大的局限和更高的效率。Hadoop逆轉了這股潮水,讓DAS從頭風行起來。每個Hadoop集群都有本身的、橫向擴展直接毗連存儲。它有助于Hadoop打點數據局部性,可是犧牲了共享存儲的局限和效率。因此,假如你有Hadoop刊行版的多個實例,就會有多個這種橫向擴展的存儲孤島。
Hedvig公司的首席執行官兼首創人阿維納什·拉克希曼(Avinash Lakshman)說:“我們碰著的最大挑戰就是,分身數據局部性與局限和效率。”
數據局部性是指確保大數據集存儲在執行闡明任務的計較資源四周。對付Hadoop來說,這就意味著打點數據節點(DataNode),而數據節點為MapReduce擁有足夠好的機能提供了存儲資源。它可以高效地事情,可是導致了另一個操縱問題:大數據存儲孤島。本文先容的這些要點有助于打點Hadoop情況中的大數據存儲。
1. 分手式存儲
會合式存儲作為傳統架構已有一段時間??墒谴髷祿鋵嵅⒉贿m合會合存儲架構。Infogix的金融處事行業(FSI)計謀和運營司理森希爾·拉賈曼尼坎(Senthil Rajamanickam)暗示,Hadoop旨在讓計較資源更靠近數據,同時充實操作HDFS文件系統的大局限橫向擴展成果。
然而,辦理Hadoop打點自有數據的低效問題的常見要領,一向是將Hadoop數據存儲在SAN上。而這帶來了機能和局限方面的一系列瓶頸。此刻,你的所有數據都通過會合式SAN節制器來處理懲罰,而節制器粉碎了Hadoop的漫衍式、并行化的特性。你需要為多個數據節點打點多個SAN,可能將所有數據節點生存到一個SAN上。
拉克希曼說:“由于Hadoop是一種漫衍式應用系統,它應該可以在漫衍式存儲上運行,那樣你的存儲保持與Hadoop自己一樣的彈性。這需要你努力回收軟件界說存儲要領,在商用處事器上運行,可是它比把Hadoop放在傳統SAN或NAS技能上高效得多,因為后者給Hadoop造成了瓶頸。
2. 超融合vs漫衍式
不外要小心,別將超融合與漫衍式等量齊觀。某些超融合要領是漫衍式的,但這個術語凡是意味著你的應用措施和存儲可以配合駐留在同一個計較節點上。辦理數據局部性問題很誘人,可是這會造成嚴重的資源爭奪現象。 Hadoop應用和存儲平臺將爭奪同樣的內存和處理懲罰器資源。拉克希曼暗示,最虧得專用的應用層上運行Hadoop,在專用的存儲層中運行漫衍式存儲,從而充實操作緩存和分層技能,以辦理數據局部性和網絡機能開銷。
3. 制止節制器阻塞點
他強調了做到這一點的一個重要方面――制止通過單一(或大概兩個)點(好比傳統節制器)來處理懲罰數據。通過改而確生存儲平臺并行化,就能顯著提高機能。
另外,這種要領提供了增量可擴展性。為數據湖添加容量就跟添加幾臺內置閃存或旋轉磁盤的x86處事器一樣簡樸。漫衍式存儲平臺可在須要時自動添加容量、從頭平衡數據。
4. 反復數據刪除和壓縮
駕御大數據的一個要害部門是反復數據刪除和壓縮。Hedvig看到常見的大數據集可以縮減70%-90%。在PB級局限下,這意味著可節減數萬美元的磁盤本錢。
拉克希曼說:“現代平臺提供了內聯式(而不是處理懲罰后)反復數據刪除和壓縮。這意味著,假如不先以某種方法來縮減數據,數據永遠不會進入到磁盤,這大大淘汰了存儲數據所需的容量。”
5. 整合Hadoop刊行版
很多大組織都有多個Hadoop刊行版。大概是由于開拓人員需要會見多個“版本”,可能業務部分久而久之回收了差異的版本。不管奈何,IT總部經常最終認真這些集群的日常維護和操縱。大數據數量真正開始影響業務時,存在多個Hadoop刊行版會導致效率低下。
拉克希曼說:“你可以建設一個單一、顛末反復數據刪除的壓縮數據湖,然后它可覺得Hadoop的多個實例提供數據,從而得到數據效率。”
6. 對Hadoop虛擬化處理懲罰
虛擬化技能在企業界刮起了一場風暴。在很多處所,如今高出80%的物理處事器已虛擬化。不外由于機能和數據局部性問題,很多人制止了對Hadoop舉辦虛擬化處理懲罰。
拉克希曼說:“你可以對Hadoop或Spark舉辦虛擬化處理懲罰。”
7. 構建彈性數據湖
構建數據湖并非易事,但大數據存儲的需求大概需要數據湖。有很多要領可以著手構建,但是哪一種才是符合的要領?符合的架構有望構建一個活潑、彈性的數據湖,可以存儲來自所有數據源、回收多種名目標數據,包羅布局化數據、非布局化數據和半布局化數據。更重要的是,它必需支持就在數據源處執行應用措施,而不是從長途源處執行,那樣需要移動數據。