數據準備經常被認為是在組織內利用數據的主要障礙,而為組織找到合適的工具可以取得突破。
要獲得數據分析的好處,首先必須做好數據準備。根據調研機構Gartner公司最近的研究,對于許多組織來說,這是一個很大的瓶頸,他們70%的時間都集中在數據準備工作上。
Gartner公司數據和分析團隊高級分析師、《Gartner公司數據準備工具市場指南》的主要作者Ehtisham Zaidi說:“尋找、訪問、清理、轉換數據,以及及時與合適的人共享數據,仍然是數據管理和分析中最耗時的障礙之一。”
Hitachi Vantara公司首席營銷官Jonathan Martin表示,對于希望通過分析來轉變業務的組織而言,主要問題不在于掌握人工智能,而在于掌握數據管道。
他說,“數據準備工作是最具挑戰性的工作。如何確定所有這些數據在哪里?可以建立一個投資組合嗎?是否可以設計管道以自動、托管和管理的方式將所有這些數據源連接在一起,從而使組織能夠在正確的時間將這些數據獲取到正確的位置、正確的人員、正確的機器?”
那么如何采用數據準備工具以解決這些問題?以及在為組織選擇數據準備工具時需要尋找哪些內容。以下是深入研究數據準備為何仍然是重大分析面臨的挑戰的原因,
首先,支持分析計劃所需的數據源和數據類型的數量和復雜性呈指數級增長。通過組織內部和外部的分布式數據生態系統訪問這些數據源需要大量的時間、資源、技能和工具來完成。
IDC公司數據集成和完整性軟件服務研究總監Stewart Bond說,“這是當今時代數據環境具有的復雜性。因為存在多種不同的數據類型:交易數據、社交媒體數據、結構化數據、非結構化數據、日志文件數據、圖形數據。數據環境存在各種不同的數據,存儲這些數據的技術也各不相同。”
其次,對自助數據訪問和集成的請求數量使IT團隊不堪重負。Zaidi說,這表明從集中式IT模型到數據集成的功能不再有效。
他說:“IT部門需要通過易于用戶使用和理解的工具來配置數據訪問和集成,這是對數據準備的需求進一步上升的原因。”
第三,數據需求不斷變化,因為業務分析師、集成商、業務用戶、數據工程師和數據科學家對他們的項目都有不同的數據需求。
Zaidi說:“這使得一次準備數據并使不同的角色/消費者可以使用它們來滿足他們不斷變化的需求,”
他補充說,隨著數據準備工具的成熟,組織的痛點已經顯著改變。其痛點在于用來連接哪些數據源以及準備哪些數據。如今,組織將重點放在數據治理、沿襲、可追溯性和質量上。他們還面臨著確保具有必要技能的合適人員可以使用數據準備工具訪問正確數據的權限。
Bond將此歸結為“數據智能”問題,即有關數據的元數據。
他說,“人們需要了解數據的位置,數據的含義,誰在使用它,誰可以訪問它,為什么擁有數據,需要多長時間保存數據,以及如何使用它,這是一種智慧。”
值得慶幸的是,數據準備工具市場正在不斷發展,以包括解決這些問題的新功能。上一代工具僅限于支持業務用戶所需的最后一英里數據準備工作的簡單數據轉換要求。下一代工具現在具有與IT團隊共享發現和準備好的模型以進行操作的功能,以及諸如數據編錄之類的數據管理功能,使用戶能夠查看和搜索連接的數據資產。
Zaidi說:“某些工具現在還嵌入了高級數據質量功能,這些是上一代工具所沒有的。這些功能包括性能分析、標記、注釋、重復數據刪除、模糊邏輯匹配、鏈接和合并功能。這些功能使IT和數據管理團隊可以更輕松地提高質量并確保治理和協作。”
在這里,機器學習(ML)是關鍵。基于機器學習的功能不僅可以在準備之前自動化數據的匹配、連接、配置文件、標記和注釋,而且某些工具可以突出顯示敏感屬性、異常和異常值,并與元數據管理和治理工具協作以防止敏感數據被暴露。
Zaidi解釋說:“這些機器學習增強的數據準備工具允許不同技能水平的用戶采用數據準備,同時確保治理和合規性。”
在數據準備工具中查找什么
當組織評估現代數據準備工具時,Zaidi說他們應該尋找關鍵功能:
數據攝取和分析。尋找一個可視化環境,使用戶能夠交互式地接收、搜索、采樣和準備數據資產。
數據編目和基本元數據管理。采用工具應該允許創建和搜索元數據。
數據建模和轉換。工具應支持數據混搭和混合、數據清理、過濾以及用戶定義的計算,組和層次結構。
數據安全。工具應包括安全性功能,例如數據屏蔽、平臺身份驗證以及用戶/組/角色級別的安全性篩選。
基本數據質量和治理支持。數據準備工具應與支持數據治理/管理以及數據質量,用戶權限和數據沿襲功能的工具集成。
數據豐富。工具應支持基本的數據豐富功能,包括實體提取和從集成數據中捕獲屬性。