每到歲末年初,行業(yè)專家就會對未來一年的技術(shù)發(fā)展進行預(yù)測,而如今,一切始于大數(shù)據(jù)問題最關(guān)鍵的方面:數(shù)據(jù)本身。
不可否認,亞洲服務(wù)器,Hadoop在2019年的發(fā)展經(jīng)歷了艱難的一年。但是它完全消亡了嗎? Alluxio公司創(chuàng)始人兼首席技術(shù)官Haoyuan Li為此表示,以Hadoop分布式文件系統(tǒng)(HDFS)形式存在的Hadoop存儲已失效,但以Apache Spark形式存在的Hadoop計算仍然存在。
Haoyuan Li說:“關(guān)于Hadoop消亡的說法很多。但是Hadoop生態(tài)系統(tǒng)還有后起之秀。諸如Spark和Presto之類的計算框架可從數(shù)據(jù)中獲取更多價值,并已被更廣泛的計算生態(tài)系統(tǒng)所采用。Hadoop存儲(HDFS)由于其復(fù)雜性和成本以及由于與HDFS保持聯(lián)系,而從根本上無法彈性擴展因此導致消亡。為了獲得實時見解,用戶需要云中可用的即時和靈活的計算能力。HDFS中的數(shù)據(jù)將遷移到最優(yōu)化和最具成本效益的系統(tǒng),無論是云存儲還是本地對象存儲。HDFS將會消亡,但是Hadoop計算將持續(xù)存在并且越來越強大。”
Cloudian公司首席營銷官(CMO)Jon Toor表示,隨著HDFS數(shù)據(jù)湖部署的緩慢,Cloudian公司已經(jīng)準備就緒,可以將數(shù)據(jù)捕獲并將其捕獲到其對象存儲中。
Toor說,“在2020年,我們將看到越來越多的組織利用對象存儲從非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建結(jié)構(gòu)化/標記數(shù)據(jù),從而允許使用元數(shù)據(jù)來理解人工智能和機器工作負載生成的數(shù)據(jù)海嘯。”
ThoughtSpot公司首席執(zhí)行官Sudheesh Nair表示,像Hadoop這樣的事情的終結(jié)將引發(fā)另一件事的開始。
Nair說:“在過去的10年中,我們看到了Hadoop的興起、平穩(wěn)發(fā)展和終結(jié)的開始。這不是因為大數(shù)據(jù)已經(jīng)死亡。恰恰相反,幾乎每個組織都在致力于成為大數(shù)據(jù)公司。這是在當今商業(yè)環(huán)境下運作的要求。數(shù)據(jù)已經(jīng)變得如此龐大,而且對這種數(shù)據(jù)的靈活性需求如此之大,然而,很多企業(yè)或者正在構(gòu)建自己的數(shù)據(jù)池或數(shù)據(jù)倉庫,或者直接進入云平臺。隨著2020年這一趨勢的加速,我們將看到Hadoop的應(yīng)用繼續(xù)下降。”
當數(shù)據(jù)變得足夠大時,就會施加類似引力的力,使其難以移動,同時還可以吸引更多數(shù)據(jù)。Digital Realty公司首席技術(shù)官Chris Sharp說,了解數(shù)據(jù)的引力將幫助企業(yè)克服數(shù)字化轉(zhuǎn)型的障礙。
Sharp說:“數(shù)據(jù)的生成速度是許多企業(yè)無法跟上的。這不僅增加了這種復(fù)雜性,企業(yè)還從難以移動和有效利用的多個位置處理有用卻不實用的數(shù)據(jù)。這給企業(yè)帶來了一個‘數(shù)據(jù)引力’問題,這將阻止數(shù)字化轉(zhuǎn)型計劃向前推進。在2020年,我們將看到企業(yè)通過將應(yīng)用程序更靠近數(shù)據(jù)源而不是將資源傳輸?shù)街醒胛恢脕斫鉀Q數(shù)據(jù)引力問題。通過本地化數(shù)據(jù)流量、分析和管理,企業(yè)將更有效地控制其數(shù)據(jù)并擴展數(shù)字業(yè)務(wù)。”
在所有條件都相同的情況下,擁有更多數(shù)據(jù)總比擁有更少數(shù)據(jù)更好。TD Ameritrade公司的人工智能、數(shù)據(jù)科學和新興技術(shù)總監(jiān)Beaumont Vance認為,但企業(yè)可以利用現(xiàn)有技術(shù)來更好地利用已有數(shù)據(jù),從而實現(xiàn)突破。
Vance說,“隨著企業(yè)創(chuàng)建新的數(shù)據(jù)池,開發(fā)更好的技術(shù)來理解研究結(jié)果,我們將看到人工智能前所未有的真正價值。目前,企業(yè)使用的內(nèi)部數(shù)據(jù)不到所有數(shù)據(jù)的20%,但通過新的人工智能功能,剩下的80%未開發(fā)的數(shù)據(jù)將是可用的,并且更容易理解。先前無法解決的問題將有顯著的改善,免備案服務(wù)器,有助于推動行業(yè)和社會的巨大變革。”
大數(shù)據(jù)很難管理,那么能用小數(shù)據(jù)采用人工智能技術(shù)嗎?Zinier公司首席執(zhí)行官Arka Dhar對此表示肯定。
Dhar說:“展望未來,我們將不再需要大量的大數(shù)據(jù)集來訓練人工智能算法。在以往,數(shù)據(jù)科學家一直需要大量數(shù)據(jù)才能對人工智能模型進行準確的推斷。人工智能的進步使我們能夠以更少的數(shù)據(jù)獲得類似的結(jié)果。”
數(shù)據(jù)的存儲方式?jīng)Q定了應(yīng)該如何處理。GridGain公司首席執(zhí)行官Abe Kleinfeld說,人們可以使用存儲在內(nèi)存中的數(shù)據(jù)而不是硬盤上做更多的事情。到2020年,人們將看到組織在基于內(nèi)存的系統(tǒng)上存儲更多數(shù)據(jù)。
Kleinfeld說:“到2020年,隨著數(shù)字轉(zhuǎn)型推動企業(yè)大規(guī)模進行實時數(shù)據(jù)分析和決策,內(nèi)存技術(shù)的采用將繼續(xù)飆升。假設(shè)從一架飛機上的傳感器收集實時數(shù)據(jù),以監(jiān)控性能,并且希望為單臺發(fā)動機開發(fā)預(yù)測性維護功能。現(xiàn)在必須將實時數(shù)據(jù)流中的異常讀數(shù)與數(shù)據(jù)池中存儲的特定引擎的歷史數(shù)據(jù)進行比較。目前,唯一經(jīng)濟有效的方法是使用內(nèi)存中的數(shù)據(jù)集成中心,它基于一個內(nèi)存計算平臺,比如集成了Apache Spark、Apache Kafka,而像Hadoop這樣的DataLake存儲……隨著數(shù)據(jù)集成中心在企業(yè)中的不斷擴展,2020年有望成為采用內(nèi)存計算的關(guān)鍵一年。”
Information Builders公司副總裁Eric Raab和Kabir Choudry表示,大數(shù)據(jù)可以讓企業(yè)的業(yè)務(wù)夢想成真,或者也可能會變成一場噩夢。選擇權(quán)在于人們自己。