一家公司想要在數(shù)字時(shí)代取得成功,必須非常熟悉并能夠充分利用自身數(shù)據(jù),挖掘其中價(jià)值,為管理層提供有見地的行業(yè)及自身洞察。
然而,對(duì)于大多數(shù)企業(yè)而言,業(yè)務(wù)拓展已經(jīng)讓他們焦頭爛額,有限的預(yù)算和時(shí)間,國內(nèi)服務(wù)器,更使得企業(yè)無暇制定一個(gè)成功且有效的數(shù)字化戰(zhàn)略。這個(gè)任務(wù)也因此落到了企業(yè)的數(shù)據(jù)運(yùn)維團(tuán)隊(duì)肩上,云服務(wù)器租用,但這一團(tuán)隊(duì)的大部分時(shí)間都用在了發(fā)現(xiàn)和處理非結(jié)構(gòu)化數(shù)據(jù)上。
非結(jié)構(gòu)化數(shù)據(jù)在全球所有數(shù)據(jù)中占比高達(dá)80%。
云上的非結(jié)構(gòu)化數(shù)據(jù)經(jīng)常出現(xiàn)不規(guī)整的現(xiàn)象。例如,有人可能在電子表格上將數(shù)字“0”錯(cuò)誤地輸入成了字母“o”,或者在復(fù)制長(zhǎng)串號(hào)碼時(shí)不慎遺漏了一部分。企業(yè)的合并和收購也可能產(chǎn)生重復(fù)或有沖突的數(shù)據(jù)集。此外,除了公司既有的海量歷史數(shù)據(jù)(這些數(shù)據(jù)在企業(yè)數(shù)字化之前就已經(jīng)存在),新數(shù)據(jù)還在以驚人的速度產(chǎn)生。
非結(jié)構(gòu)化數(shù)據(jù)可能會(huì)引起混淆并導(dǎo)致不準(zhǔn)確的解讀。然而,這些歷史數(shù)據(jù)也必須被恰當(dāng)?shù)毓芾恚駝t,數(shù)據(jù)閑置在存儲(chǔ)設(shè)備中,既浪費(fèi)了存儲(chǔ)空間也讓這些數(shù)據(jù)失去了應(yīng)有的價(jià)值。企業(yè)可能會(huì)感覺自己陷入了一個(gè)兩難的境地,對(duì)所有數(shù)據(jù)的整理分類是一項(xiàng)十分艱巨的任務(wù),并且需要耗費(fèi)大量時(shí)間,但這又是一項(xiàng)必須著手推進(jìn)的任務(wù)!
想要更好地識(shí)別數(shù)據(jù)并挖掘數(shù)據(jù)價(jià)值,一個(gè)以數(shù)據(jù)搜索和數(shù)據(jù)分類為基礎(chǔ)的解決方案便成為了關(guān)鍵。所有的后續(xù)工作都要從一個(gè)不起眼的步驟開始——提取為元數(shù)據(jù)(metadata)。
什么是元數(shù)據(jù)
簡(jiǎn)而言之,元數(shù)據(jù)是所謂描述數(shù)據(jù)的數(shù)據(jù)。它為我們提供了一種結(jié)構(gòu)化的方法來識(shí)別數(shù)據(jù)所呈現(xiàn)的信息。
在內(nèi)容智能平臺(tái)對(duì)元數(shù)據(jù)進(jìn)行提取和整合操作時(shí),元數(shù)據(jù)在不到六分鐘的時(shí)間內(nèi)就能被充分分析并得出結(jié)論。(人工處理這一任務(wù)則需要幾天、幾周甚至幾年的時(shí)間。)這就意味著數(shù)據(jù)管理員能夠方便快速地進(jìn)行操作并探索數(shù)據(jù),從而可以將更多時(shí)間投入到更高級(jí)別的工作中去。
例如,你的智能手機(jī)里可能有成千上萬張圖片,你將如何對(duì)它們進(jìn)行分類?GPS坐標(biāo)就是一種常見的、能從這些圖片數(shù)據(jù)中被讀取到的元數(shù)據(jù)。你從圖片本身看不到坐標(biāo),但在拍攝的瞬間它就已經(jīng)嵌入到圖片文件當(dāng)中。利用這些信息,能夠識(shí)別元數(shù)據(jù)的應(yīng)用程序就可以讀取該信息并提供附加功能,例如按照地理位置對(duì)照片進(jìn)行分類。這使得對(duì)圖片數(shù)據(jù)進(jìn)行邏輯分組變得非常簡(jiǎn)單。
元數(shù)據(jù)有助于實(shí)現(xiàn)企業(yè)或組織的重要功能,使之能夠快速有效地開展數(shù)據(jù)的運(yùn)營維護(hù),更好地為客戶提供服務(wù)。如果沒有元數(shù)據(jù),在定位客戶所需的特定數(shù)據(jù)時(shí),我們將面臨巨大的挑戰(zhàn)。
例如,一個(gè)醫(yī)學(xué)成像應(yīng)用程序有超過10,000個(gè)大腦掃描圖像。如果想要根據(jù)地點(diǎn)或年齡對(duì)掃描數(shù)據(jù)進(jìn)行分組,則必須手動(dòng)查看每次掃描的原始地點(diǎn),或者掃描的對(duì)象。元數(shù)據(jù)的識(shí)別意味著相關(guān)信息的搜索只需幾秒鐘時(shí)間,而手工處理這些數(shù)據(jù)則需要幾天或幾個(gè)月的時(shí)間。在醫(yī)療衛(wèi)生和醫(yī)學(xué)研究領(lǐng)域,處理數(shù)據(jù)用時(shí)的長(zhǎng)短意味著生與死的差別。
為什么內(nèi)容智能平臺(tái)如此重要
元數(shù)據(jù)本身在被提取之前毫無價(jià)值,而提取元數(shù)據(jù)最快、最簡(jiǎn)單的方法就是通過內(nèi)容智能平臺(tái)。這一平臺(tái)能夠快速并全面地檢測(cè)到元數(shù)據(jù),這也是整理非結(jié)構(gòu)化數(shù)據(jù)的第一步。
內(nèi)容智能平臺(tái)提供了一個(gè)引擎,使數(shù)據(jù)管理員能夠在一個(gè)集中化的平臺(tái)上對(duì)數(shù)據(jù)進(jìn)行識(shí)別、索引分類,并采取進(jìn)一步行動(dòng)。我們也可以將內(nèi)容智能平臺(tái)視為非結(jié)構(gòu)化數(shù)據(jù)的搜索引擎。內(nèi)容智能是一個(gè)框架,可以將數(shù)據(jù)轉(zhuǎn)換為非常易于搜索的內(nèi)容,以便使用者檢索。內(nèi)容智能平臺(tái)的關(guān)鍵點(diǎn)也是元數(shù)據(jù)。元數(shù)據(jù)是找到所需數(shù)據(jù)的線索。它也是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類的關(guān)鍵。通過分類,非結(jié)構(gòu)化數(shù)據(jù)變得有意義,并能釋放價(jià)值。
內(nèi)容智能平臺(tái)不僅僅能對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類,還可以充當(dāng)數(shù)據(jù)管理員的得力助手,提供智能指導(dǎo)的數(shù)據(jù)探索、數(shù)據(jù)建議,以及通過開放跨越不同地點(diǎn)和數(shù)據(jù)類型的訪問權(quán)限提供所有數(shù)據(jù)的即時(shí)可視性。內(nèi)容智能平臺(tái)還可以實(shí)現(xiàn)數(shù)據(jù)個(gè)性化定制和安全防護(hù),向正確的人員提供正確的數(shù)據(jù),以防數(shù)據(jù)落入錯(cuò)誤的人員手中造成隱患。
Hitachi Vantara提供的智能的數(shù)據(jù)發(fā)現(xiàn)和轉(zhuǎn)化平臺(tái)Hitachi Content Intelligence(內(nèi)容智能平臺(tái))可提供數(shù)據(jù)分析和存儲(chǔ)性能監(jiān)控,進(jìn)而幫助企業(yè)及其他組織機(jī)構(gòu)提高員工生產(chǎn)力并提供可行的業(yè)務(wù)洞察,將數(shù)據(jù)轉(zhuǎn)變?yōu)橛袃r(jià)值的業(yè)務(wù)信息,滿足切實(shí)的業(yè)務(wù)與運(yùn)營需求。