大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些有意義的數(shù)據(jù)進行專業(yè)化處理。大數(shù)據(jù)的核心價值是存儲和分析海量數(shù)據(jù)。大數(shù)據(jù)是指常規(guī)軟件工具無法在一定時間框架內(nèi)捕獲、管理和處理的數(shù)據(jù)集。它是一種海量、高增長、多樣化的信息資產(chǎn),需要一種新的處理模式來具備更強的決策、洞察和發(fā)現(xiàn)以及流程優(yōu)化能力。大數(shù)據(jù)技術的主要內(nèi)容有哪些?
1.摘要索引:摘要索引是創(chuàng)建數(shù)據(jù)的預先計算的摘要以加快查詢操作的過程。索引的問題是您必須計劃要執(zhí)行的查詢,因此它是有限的。隨著數(shù)據(jù)的快速增長,對抽象索引的需求永遠不會停止。無論是長期還是短期,供應商對于抽象指標的制定都必須有明確的策略。
2.生態(tài)系統(tǒng)戰(zhàn)略:許多最大和最成功的公司花費大量資金圍繞其產(chǎn)品構建生態(tài)系統(tǒng)。這些生態(tài)系統(tǒng)由產(chǎn)品特性和商業(yè)模式支持,并與合作伙伴的產(chǎn)品和技術協(xié)同工作。如果一個產(chǎn)品沒有戰(zhàn)略生態(tài)系統(tǒng),就很難適應客戶的要求。
3.并行化:大數(shù)據(jù)的定義很多,下面這個相對有用。“小數(shù)據(jù)”的情況與桌面環(huán)境類似,磁盤存儲容量在1GB到10GB之間,“中數(shù)據(jù)”數(shù)據(jù)量在100GB到1TB之間,“大數(shù)據(jù)”分布存儲在多臺機器上,包括1TB到多PB的數(shù)據(jù)。如果您在分布式數(shù)據(jù)環(huán)境中工作,并且希望在短時間內(nèi)處理數(shù)據(jù),則需要分布式處理。并行處理在分布式數(shù)據(jù)中脫穎而出,Hadoop是分布式/并行處理領域的知名范例。Hadoop包含大型分布式文件系統(tǒng),支持分布式/并行查詢。
4.流處理:隨著業(yè)務發(fā)展的步伐和業(yè)務流程的復雜性,我們的注意力越來越集中在“數(shù)據(jù)流”而不是“數(shù)據(jù)集”上。決策者感興趣的是堅守組織的命脈并獲得實時結(jié)果。他們需要的是一個能夠處理隨時發(fā)生的數(shù)據(jù)流的架構。當前的數(shù)據(jù)庫技術不適合數(shù)據(jù)流處理。例如,計算一組數(shù)據(jù)的平均值可以通過使用傳統(tǒng)腳本來實現(xiàn)。然而,有更有效的算法來計算移動數(shù)據(jù)的平均值,無論是到達、增長還是一個接一個的單位。如果你想建立一個數(shù)據(jù)倉庫,進行任何數(shù)據(jù)分析和統(tǒng)計,可以實現(xiàn)開源產(chǎn)品r或者類似于SAS的商業(yè)產(chǎn)品。但是你要創(chuàng)建的是一個數(shù)據(jù)流統(tǒng)計集合,對于這個集合,數(shù)據(jù)塊是逐漸增加或者刪除的,并且進行移動平均計算,數(shù)據(jù)庫不存在或者還不成熟。數(shù)據(jù)流周圍的生態(tài)系統(tǒng)不發(fā)達。換句話說,如果你正在和供應商談判一個大數(shù)據(jù)項目,你必須知道數(shù)據(jù)流處理對你的項目是否重要,供應商是否有能力提供。
5.數(shù)據(jù)可視化:有兩種可視化工具。探索性視覺描述工具可以幫助決策者和分析師探索不同數(shù)據(jù)之間的聯(lián)系,這是一種視覺洞察。類似的工具有Tableau、TIBCO和QlikView,這是一個類別??梢暬ぞ咧荚谝元毺氐姆绞教剿鲾?shù)據(jù)。例如,如果您想以可視化的方式按地區(qū)查看時間序列中企業(yè)的銷售業(yè)績,將預先創(chuàng)建可視化格式。數(shù)據(jù)將按地區(qū)逐月顯示,并根據(jù)預定義的公式進行排序。供應商感知像素就屬于這一類。有不懂的請咨詢夢飛云idc了解。