本文主要結論與資料來自于研究公司Dresner Advisory Services最新的大數據研究報告“2017 Big Data Analytics Market Study”,這是該公司Crowds?系列研究中的一部分。本系列報告連續第三年考察與分析了大數據分析最終用戶的使用趨勢與使用意圖,并將大數據分析定義為最終用戶能夠訪問、分析和管理Hadoop生態體系中數據的一套系統。
Dresner Advisory Services 的創始人簡首席研究員Howard Dresner表示,“在我們對大數據分析進行全面研究的三年中,我們看到使用率的大量提升以及無采用計劃比例的大幅下降。 而在2017年中,IT部門員工成為了最典型的大數據應用者,盡管所有部門(包括財務部門)都在考慮在未來應用大數據分析,九江服務器 東莞服務器,這說明大數據已經不是一種實驗性的嘗試,而是一種組織內部的實踐性追求”。
本次報告中,主要發現如下:
報告、儀表板、高級可視化、最終用戶“自我服務”以及數據倉庫是公司BI戰略中排名前五位的技術和措施。大數據目前在Dresner Advisory Services追蹤的33項關鍵技術中排名第20位,高于物聯網(IoT)、自然語言分析、認知BI和位置只能,這說明大數據的戰略重要性高于上述技術。
目前有53%的公司正在使用大數據分析,而2015年這一比例僅為17%。電信與金融服務公司是這一波增長中主要推手,香港服務器 香港服務器租用,他們是大數據分析服務最活躍的早期應用者,接下來的是科技與醫療行業,而教育行業的大數據應用者占比最低。不過2017年以至年末,大部分的教育公司正在對于大數據的使用與否進行評估。在地區中,北美地區(55%)稍微領先于歐洲、中東以及非洲地區(53%)。來自于亞州地區的大數據使用者目前僅為44%,但這也說明他們最有可能將在未來使用大數據分析。
數據倉庫優化被受訪者廣泛認可為最重要的大數據分析用例,其次分別是客戶/社交分析與預測性維護。70%的受訪者認為數據倉庫優化是重要或非常重要的是,不過很有趣的是,IoT是目前大數據分析用例中優先級最低的。
大數據分析用例在行業中差別很大,在金融服務中,數據倉庫優化主導所有用例;科技公司則主要使用大數據分析以進行醫療保健和客戶/社交分析應用。同時,在金融服務和電信公司中,欺詐檢測應用比例也較高,而點擊流量分析也在金融服務的用例中處于領先地位。
Spark,MapReduce和Yarn是當今最流行的三種軟件框架。 超過30%的受訪者認為Spark對他們的大數據分析策略至關重要。而也有20%以上的受訪者認為MapReduce和Yarn “至關重要”。
最受歡迎的大數據訪問方式包括Spark SQL、Hive、HDFS和Amazon S3。73%的受訪者認為Spark SQL對他們的分析策略至關重要, 而超過30%的受訪者認為Hive和HDFS也很重要。 作為五大數據訪問方式之一的亞馬遜S3也具有較高認可程度。 下圖顯示了大數據訪問方法的分布情況。
機器學習將繼續獲得更多的行業支持和投資計劃,Spark的機器學習庫(MLib)的采用率將在未來一年內將增長60%。 根據調查結果,在未來兩年內,MLib將主導整個機器學習的使用,用戶將可以從Sparklyr R Package和其他產品中獲得MLib,而這些產品將不斷推動公司的發展。