經過行業信息化建設,醫療、交通、金融等領域已經積累了許多內部數據,構成大數據資源的“存量”;而移動互聯網和物聯網的發展,大大豐富了大數據的采集渠道,來自外部社交網絡、可穿戴設備、車聯網、物聯網及政府公開信息平臺的數據將成為大數據增量數據資源的主體。當前,移動互聯網的深度普及,為大數據應用提供了豐富的數據源。
另外,快速發展的物聯網,也將成為越來越重要的大數據資源提供者。相對于現有互聯網數據雜亂無章和價值密度低的特點,通過可穿戴、車聯網等多種數據采集終端,定向采集的數據資源更具利用價值。例如,智能化的可穿戴設備經過幾年的發展,智能手環、腕帶、手表等可穿戴正在走向成熟,智能鑰匙扣、自行車、筷子等設備層出窮,國外 Intel、Google、Facebook,國內百度、京東、小米等有所布局。
企業內部數據仍是大數據主要來源,但對外部數據的需求日益強烈。當前,有 32%的企業通過外部購買所獲得的數據;只有18%的企業使用政府開放數據。如何促進大數據資源建設,提高數據質量,推動跨界融合流通,是推動大數據應用進一步發展的關鍵問題之一。
總體來看,各行業都在致力于在用好存量資源的基礎之上,積極拓展新興數據收集的技術渠道,開發增量資源。社交媒體、物聯網等大大豐富了數據采集的潛在渠道,理論上,數據獲取將變得越來越容易。
在存儲方面,2000 年左右谷歌等提出的文件系統(GFS)、以及隨后的 Hadoop 的分布式文件系統 HDFS(Hadoop Distributed File System)奠定了大數據存儲技術的基礎。
與傳統系統相比,GFS/HDFS 將計算和存儲節點在物理上結合在一起,從而避免在數據密集計算中易形成的 I/O吞吐量的制約,同時這類分布式存儲系統的文件系統也采用了分布式架構,能達到較高的并發訪問能力。
在計算方面,谷歌在 2004 年公開的 MapReduce 分布式并行計算技術,是新型分布式計算技術的代表。一個 MapReduce 系統由廉價的通用服務器構成,通過添加服務器節點可線性擴展系統的總處理能力(Scale Out),在成本和可擴展性上都有巨大的優勢。
大數據數據分析技術,一般分為聯機分析處理(OLAP,OnlineAnalytical Processing)和數據挖掘(Data Mining)兩大類。
OLAP技術,一般基于用戶的一系列假設,在多維數據集上進行交互式的數據集查詢、關聯等操作(一般使用 SQL 語句)來驗證這些假設,代表了演繹推理的思想方法。
數據挖掘技術,一般是在海量數據中主動尋找模型,站群服務器,自動發展隱藏在數據中的模式(Pattern),代表了歸納的思想方法。
傳統的數據挖掘算法主要有:
(1)聚類,又稱群分析,是研究(樣品或指標)分類問題的一種統計分析方法,針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。企業通過使用聚類分析算法可以進行客戶分群,在不明確客戶群行為特征的情況下對客戶數據從不同維度進行分群,再對分群客戶進行特征提取和分析,從而抓住客戶特點推薦相應的產品和服務。
(2)分類,類似于聚類,亞洲服務器租用 歐洲服務器,但是目的不同,分類可以使用聚類預先生成的模型,也可以通過經驗數據找出一組數據對象的共同點,將數據劃分成不同的類,其目的是通過分類模型將數據項映射到某個給定的類別中,代表算法是 CART(分類與回歸樹)。企業可以將用戶、產品、服務等各業務數據進行分類,構建分類模型,再對新的數據進行預測分析,使之歸于已有類中。分類算法比較成熟,分類準確率也比較高,對于客戶的精準定位、營銷和服務有著非常好的預測能力,幫助企業進行決策。
(3)回歸,反映了數據的屬性值的特征,通過函數表達數據映射的關系來發現屬性值之間的一覽關系。它可以應用到對數據序列的預測和相關關系的研究中。企業可以利用回歸模型對市場銷售情況進行分析和預測,及時作出對應策略調整。在風險防范、反欺詐等方面也可以通過回歸模型進行預警。
傳統的數據方法,不管是傳統的 OLAP 技術還是數據挖掘技術,都難以應付大數據的挑戰。首先是執行效率低。傳統數據挖掘技術都是基于集中式的底層軟件架構開發,難以并行化,因而在處理 TB 級以上數據的效率低。其次是數據分析精度難以隨著數據量提升而得到改進,特別是難以應對非結構化數據。