數據的真實價值就像漂浮在海洋中冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。在大數據時代,數據的價值仍然存在,只是處于“休眠”狀態,而要解鎖這些數據的價值,就必須通過統計人員的不懈努力并借助新一代的方法和工具,來釋放數據隱藏的價值。
大數據來襲勢不可擋
世界每時每刻都在產生數據,數據又開始以幾何級增長,這種增長速度已經不是“爆炸”二字可以形容的了。國際數據公司(IDC)的《數據宇宙》報告顯示:2008年全球數據量為0.5ZB,2010年為1.2ZB,人類正式進入ZB時代。更為驚人的是,2020年以前全球數據量仍將保持每年40%以上的高速增長,大約每兩年就翻一倍,預計2020年將突破35ZB。
任何事物量變到一定程度必然要發生質變。哈佛大學里·金教授說:“大數據是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商業還是政府,所有領域都將開始這種進程。”今天,我們進入了信息社會,面臨著大數據時代的來臨,云計算、物聯網、移動終端及可穿戴設備高度發達與融合,不管你是誰、不管你愿意不愿意,都要與數據打交道,要么在生產數據,要么在接收數據。大數據能輕而易舉地解決常規統計調查無法涉及到的、各種復雜多變的行業和領域的統計,因為大數據不但量大,其涵蓋面也十分廣泛,任何時候、地方、人或單位,只要發生了互動行為就要留下“痕跡”,而如何在各種各樣的數據中進行深入的分析和挖掘,發現這些數據當中隱藏的更深刻的規律和現象,對這些信息進行加工整理獲得的大數據,必然能夠有效解決現行統計和國民經濟核算資料不全的問題,更好地服務于政府決策和社會各方面的需求。
實現數據共享。除統計部門外的其他政府部門也積累了海量的數據和行政記錄,由于數據開放程度不足,大量的政府數據處于“休眠”狀態,而且政府和公共部門是最大的信息數據生產、收集、使用和發布的單位。但現實情況是,海量的數據分散在各個部門、各個層級,彼此分割,形成一個個“信息孤島”。城市中不同單位之間的數據流通往往是以紙質文件形式進行的,數據的存儲也是以電子文檔的形式和紙質文檔的形式進行,而且不同城市之間的數據交流并不是很方便,一般是孤立的,之間沒有共享的網絡平臺,是一座座“數據孤島”。這就給大數據的實現帶來很大阻礙,尤其針對基層統計分析人員來說,給數據的全面搜集帶來很大阻力,不得不停留在小數據分析時代。因此,要實現大數據在統計上的應用,必須打破信息之間“壁壘”,真正實現信息資源共享。只有這樣,才能夠最大限度地滿足常規統計、尤其是國民經濟核算的數據需求。
制定統一的標準。首先統計是一門科學,是一項十分嚴謹的工作。因此,統計指標的含義、口徑、范圍、來源渠道、計算方法、計量單位等應該統一,香港網存空間 北京主機,只有這樣才具有可比性。比如,在大數據背景下,如果能有效獲取大型超市、商場、電商歷史銷售明細,將為CPI調查的小類、基本分類權重分配提供更具說服力的參考依據。但是很多食品以千克為單位,而企業的銷售單位往往是袋、瓶或件。如果折算為千克,需要大量細致而繁瑣的工作,并且還需要根據企業變化而變化,進行動態調整。數據標準不統一,指標口徑雜亂,數據之間就難以整合和銜接,界定哪些信息屬于可在統計上應用的大數據,應將大數據的口徑、范圍調整為常規統計所需的口徑和范圍,對大數據的海量信息進行甄別、篩選,然后挖掘出統計核算所需要的、且常規統計所難以取得的資料。其次大數據和小數據在運用過程中的結合所需要的理論解釋和技術手段也都需要創新,這就需要依據模糊數學、統計學、計量經濟學等學科的理論基礎,構建和完善智能決策系統的理論基礎和理論體系。在這樣的理論基礎上,還要突破技術上的障礙,實現政府數據交流的網絡平臺架構、網絡數據的安全和保密、數據分析和應用體系的軟件設計和完善。同時,傳統的個人信息保護制度,在大數據場景下變得越來越難以操作,為防止泄密,有必要制定一個關于大數據開發利用的制度,保障個體信息資料的安全。
培養大數據人才。與信息技術其他細分領域人才相比,大數據產業對人才的復合型能力要求更高,尤其是需要具備綜合掌控數學、統計學等方面知識的復合型人才,同時更離不開大數據發掘、加工、整理和分析的人才。因此,必須培養和造就一支懂技術、懂管理、懂指揮的統計大數據建設專業團隊,為統計大數據管理人才提供保障。大力培養一批大數據應用、尤其是大數據分析方面的人才,為大數據廣泛應用于政府統計奠定基礎。中國大數據應用起步相對較晚,教育和職業培訓尚不能很好地滿足行業發展需求,預計目前大數據人才缺口已經超過100萬人。而且隨著大數據在中國的不斷發展,各個地方都開始興建大數據中心,但對于大數據中心的建設,更多地還停留在“建機房、上設備、堆數據”的階段,忽視了大數據對數據的分析和應用。比如,社會信用、食品藥品安全等一些社會管理和公共服務系統更多形成的是結果和狀態數據,韓國百兆不限流主機 新加坡服務器,大量的過程和行為數據并未有效采集,占數據總量95%以上的非結構化數據被束之高閣。這些數據如能夠得到合理保存并加以開發利用,將有極大的價值。