組織生成元數據的速度如此之快,以至于它變成了當今的大數據挑戰。然而,存儲所有這些信息的最佳方式和位置并不總是很清楚。很大程度上取決于組織如何管理和使用元數據,以及他們是否將元數據與其原始數據分開。許多組織將他們的元數據轉移到中央存儲庫中以改進操作并更好地使用信息。因此,元數據存儲問題成為首要問題。
什么是元數據存儲,為什么它很重要?
簡單地說,元數據是關于數據的數據。它可以包含有關數據文件的各種信息,具體取決于文件類型和存儲類型。例如,文件的元數據可能包括以下內容:
- 文件名;
- 所有者;
- 尺寸;
- 文件類型;
- 創建日期和時間;
- 創建位置的 GPS 坐標;
- 版權信息;
- 數據沿襲。
盡管應用程序通常會自動生成元數據,但組織可以手動添加并自定義。
隨著數據量的增長,元數據在管理和優化數據方面發揮的重要作用也越來越大。元數據使索引、查找、排序和分類數據變得更加容易。它有助于通過高級分析更好地理解數據。元數據還有助于提高數據質量、優化數據管理、簡化存儲管理并促進更高的生產力,所有這些都可以帶來更高效的運營和更低的成本。
然而,要實現這些好處,組織必須建立一個有效的元數據存儲和管理系統。元數據存儲必須通過提供安全高效的數據托管系統來滿足更大的元數據管理策略的需求。如果沒有精心規劃和實施的存儲系統,性能可能會受到影響,數據資源可能難以找到,元數據甚至可能丟失。存儲系統必須確保元數據持續可用。
元數據存儲和管理的最佳實踐
對于依賴于與源數據分開的中央存儲庫的元數據管理系統,存儲團隊需要考慮幾個因素,包括他們將如何實施和分發平臺。
1.不要一個人去
團隊的元數據存儲策略應該是組織更大的元數據管理策略的一部分,而后者又應該是組織更大的數據治理策略的一部分。有效的元數據管理需要整個組織的參與,包括負責元數據存儲的團隊。參與定義元數據目標和采用標準。通過這種方式,團隊可以為討論帶來重要的視角,并開始在底層開展工作。
2.看大局
盡管存儲團隊主要關注元數據存儲,但對支持元數據工作的底層基礎設施和技術有很好的了解。了解組織將部署哪些組件、這些組件如何組合在一起以及元數據在最終存儲之前如何在這些組件之間移動。
團隊需要知道這些細節:
- 該組織將如何實施該目錄;
- 使用哪個數據庫系統;
- 需要存儲在目錄中的附加信息(元數據除外);
- 如何部署支持應用程序;
- 是否會有抽象層;
- 使用哪些第三方管理工具;
- 有關可能影響存儲的各種系統的任何其他信息。
3. 大局觀再大局觀
存儲團隊應該清楚元數據管理平臺將如何擴展以滿足用戶需求。考慮部署多少個站點以及每個站點有多少個存儲節點等問題。了解組織將如何分發元數據。清楚地了解如何擴展或縮小存儲系統以滿足未來的需求。
4. 不要將元數據視為二等公民
直到最近,大多數組織幾乎都沒有注意到元數據,但是大數據量的沖擊和分析技術的改進讓他們認識到了它的價值。因此,確保存儲系統滿足預期的性能需求,而不管平臺如何。元數據存儲庫在訪問資源方面起著至關重要的作用,因此性能不佳的元數據存儲可能是數據訪問中的一個重大瓶頸。
隨著組織從被動元數據模型轉向主動元數據模型,性能風險甚至更高。被動元數據是相對靜態的。主動元數據是智能驅動的,實時運行,因此它不斷地從網絡中收集元數據。
5. 掌握數據要求
存儲團隊需要對將要存儲的數據有一個完整的了解——不僅是元數據,還包括支持元數據管理平臺的任何數據。數據總量是這張照片中最重要的部分。提供足夠的能力支持元數據平臺進行的操作,包括元數據提取;其他提取、轉換和加載過程;以及其他需要存儲空間的支持工具或系統。
對象存儲的使用正在上升。考慮到對象存儲元數據是高度可定制的,這會增加數據總量。確定是通過二進制還是文本存儲元數據、保留多長時間、是否存檔以及用于分析的存儲量。
6. 像保護任何其他公司數據一樣保護元數據
元數據可能包含敏感信息并為網絡攻擊提供途徑。采取必要的步驟來實施安全的存儲環境并遵守適用的法律法規。防止因自然災害、網絡攻擊、數據處理不當或其他威脅情況而導致的數據丟失。使用復制、備份或氣隙存檔等工具。附帶說明一下,如果元數據本身是最新且可靠的,組織還可以使用其元數據來幫助保護數據并遵守適用的法規。
元數據存儲的其他注意事項和示例
組織可能會將元數據與源數據一起存儲或存儲在單獨的位置。當與數據一起存儲時,元數據通常嵌入到與原始數據相同的文件中,在這種情況下,元數據存儲的考慮因素與原始數據的考慮因素非常相似。有時元數據存儲在主數據文件附帶的外部文件中,但在這種情況下,存儲方面的考慮也大同小異,只是可能需要更多空間。
將元數據保持在數據附近,以提供一種處理元數據和隨之而來的存儲的簡單方法。元數據在移動時與主要數據保持在一起,并且可以輕松讀取和更新。但是,如果從數據文件中剝離元數據或刪除外部元數據文件,則這兩種方法的優勢都將喪失。這兩種方法都無法實現跨網絡的集中管理,隨著數據量的擴大和元數據變得更有價值,這已成為人們日益關注的問題。當元數據與數據一起存儲時,不斷增長的數據量也使得搜索特定數據變得更加困難。
由于這些限制,許多組織現在將其元數據存儲在與源數據分開的中央存儲庫中。中央元數據存儲庫或目錄通常是更大的元數據管理策略的一部分,其中元數據從源數據中提取并存儲在存儲庫中。中央存儲庫可以更輕松地在整個組織中搜索特定類型的數據,無論數據量或位置有多大。這種方法還簡化了管理,從而在整個組織內實現更高效的運營和更一致的元數據。
將元數據與數據分開,以部署最適合元數據特定工作負載的存儲。集中式存儲庫可以促進高級分析,從而從元數據中獲取更多價值。元數據與數據是分開的,因此存儲可以適應特定于元數據的工作負載。在某些情況下,組織可能會采用混合方法進行元數據管理,構建中央存儲庫但將元數據嵌入某些文件中。
集中式方法會帶來其他挑戰。如果元數據變得與數據不同步,則元數據的用處可能會降低。管理系統必須能夠持續將元數據與源數據同步,以確保持續的準確性——這一過程會影響存儲資源。元數據管理系統可能無法理解某些文件中的元數據,在這種情況下,系統可能需要將元數據保存到二進制大對象存儲中,以供第三方工具訪問。即使這些因素不是問題,存儲團隊仍必須確保他們有合適的存儲來支持元數據存儲庫典型的讀取密集型工作負載類型。