2012 年被認為是大數據元年。在這一年,美國奧巴馬政府推出了《大數據研究和發展計劃》,啟動了美國國家大數據戰略;用戶日志管理公司 Splunk 成功上市,成為大數據第一股。在隨后的幾 年中,大數據風潮席卷全球,韓國云服務器 美國云主機,技術、資本、人才趨 之若鶩,大數據產業出現了一波脈沖式的發展。從全球經驗來看,企業是大數據應用創新的主要力量,政府為大數據產業發展提供了巨大支撐,開源社區則為大數據技術進步營造了廣闊空間。但是,與此 同時,鼓勵數據價值發現之“魚”和保護個人隱私之“熊掌”兩者不可兼得的法規矛盾變得越來越突出。
經濟層面
創造價值是大數據應用創新的源動力
利用大數據資源和技術創造更多價值,成為企業 開展大數據應用創新的源動力。圍繞既有的資源稟賦和競爭優勢,企業進行著各種大數據產業創新,探索 出大數據背景下適合企業自身發展的路徑。
一方面,傳統IT硬件廠商積極向大數據基礎設 施和大數據技術平臺服務提供商轉型。根據美國專 業分析機構Wikibon發布的報告,IBM公司2013年從大數據相關產品及服務中獲得了13.68 億美元收益。其具體產品包括服務器與存儲硬件、數據庫軟件、 分析應用程序以及相關服務,還有 DB2、Informix、 InfoSphere 數據庫平臺,Cognos 與 SPSS 等大數據 分析應用類產品。惠普公司在2013年獲得的大數據營業收入總值為8.69億美元,它還提供與之相關 的硬件、軟件以及服務,其中最為知名的方案當數 Vertica 分析平臺。
另一方面,諸多新型互聯網企業成為數據資源的集聚方,通過創新形成大量的數據產品服務于各類應 用場景。比如,eBay公司用數據驅動商業,其所有的 數據產品都是針對業務而生,數據部門需要對不斷變 化的用戶需求找到解決之法,也就是從客戶的行為數據中尋找更多新價值。eBay公司針對賣家工具提供的 Seller Hub,可以對每一位賣家進行深入分析,使賣家了解哪些商品更暢銷,產品如何標價才能具備競爭 優勢等。再比如,Salesforce公司是一家專注于CRM
(用戶關系管理)的公司,通過對用戶數據分析挖掘 形成新的價值,是大數據在精準營銷領域的典型應用。 Salesforce公司在2015年的營業收入超過50億美元。
據大數據行業分析師估計,到2020年,Salesforce公司有望成為一家市值達 1000 億美元的公司。
技術層面
開源社區是大數據技術進步的大生態
開源模式成為大數據技術創新的主要途徑。從大數據技術的發展歷程上可以看出,大數據核心技術如分布式存儲、云端分布式及網格計算均依賴于開源模式,即通過開放式的平臺,吸引全球開發者通過開源社區進行代碼的開發、維護和完善,從而集全球智慧推動大數據技術的不斷進步。當前,全球各大企業 加大了對開源社區的贊助和智力投入,開源社區在大 數據技術進步中占據核心地位。
一方面,由第三方打造的大數據技術開源平臺 發揮了積極作用。Apache 軟件基金會(ASF)是推動大數據技術發展的全球頂級開源社區。ASF 正式創建 于 1999 年,至今已經成功孵化了眾多大數據相關的 開源項目。ASF 大數據開源社區的創建過程是全球 大數據技術公司的集體智慧。其中,Apache Hadoop 技術的發展就是非常典型的例子。谷歌公司在 2003 年發布的關于谷歌文件系統(Google GFS)的論文 和 2004 年發布的關于編程模型 MapReduce 的論文是 Hadoop 的技術雛形。2005 年, 雅虎公司啟動了 Nutch 項目,提供了一個專門的團隊和資源將 Hadoop 發展成一個可在網絡上運行的系統。到 2008 年 1 月, Hadoop 已成為 Apache 的頂級項目,并成為大數據發展的技術標準。
另一方面,大數據領先企業也在圍繞自身生態 打造技術開源社區。這些企業通過開源項目的方式推動技術創新,并將創新成果通過開源方式向全社會輻 射,引導和推動大數據技術的發展,在國際上逐漸形成了一套高效運轉的研發產業化體系。開源提供了一 種高效生產軟件的方法,降低了企業進入大數據應用服務市場的壁壘,催生更多技術和服務應用的創新。 比如,Facebook 公司于 2013 年 11 月開源了 Presto 技術,該技術是新型分布式 SQL 引擎,它能夠對各 種大小(從 GB 級至 PB 級)的數據源進行交互式的 分析查詢。2015 年,Presto 社區的代碼提交數量提 高了 48%, 而 fork 的數量則提高了 99%。Airbnb、 Dropbox、Netflix 等各大公司都開始使用 Presto 作 為交互式查詢引擎。
Presto 在全球范圍內的接受度也在逐步提高,包括來自日本的社交媒體游戲開發公司 Gree,以及來自中國的電子商務公司京東都在使 用該技術。
政策層面
政府戰略是推動大數據產業發展的重要保障