當大數據帶給世界更多比特,這些實時產生的海量數據成為了一座開采難度巨大的礦山。大家都知道通過這些碎片化的數據能夠挖掘出更多價值,但是就目前的整體發展來看,大數據的應用遠沒有達到預期的效果,其原因有幾個:
1
數據的獲取難度增加
從早期PC端各種類型的cookie數據及用戶網站瀏覽、點擊、停留等數據,到用戶移動端設備相關的型號、位置及應用使用時長、次數、類型等數據,再到應用內的點擊、停留、瀏覽、搜索等數據,數據量雖然越來越大,云服務器租用,可獲取變得越來越難。
早期,用戶對這些所謂的“不敏感數據”并不了解,或著不太在意。但隨著各種類型的數據商業模式興起,一些數據收集方過度、越線收集用戶數據,又有人利用這些數據進行過度營銷,嚴重損害了用戶體驗和信任度。用戶的數據保護意識快速提升,而數據收集方也有保護自身數據資產的需求,這就產生了多方面的矛盾,使得大規模的數據收集和應用變得更加困難。
為解決這些問題,應該建立全面的機制和標準,使得數據的獲取、加工、存儲、應用、共享更加規范和有序,打破數據孤島困境,共同構建生態健康、持續成長的市場。
2
數據應用與個人隱私的問題沒有很好的解決
大數據時代,每個人通過互聯網留下了大量的各種類型的數據,綜合這些數據信息能夠反映出人的行為模式:包括應用興趣偏好、常去地點、工作及居住地、社交關系、收入水平、消費偏好、品牌偏好等。善用這些數據原本能夠更好的為用戶服務,比如提供更符合用戶偏好的產品及服務,能夠有效降低用戶的選擇時間,甚至規劃建設更高效的城市、讓生活更便捷。
但是,一方面頻繁的操作系統升級和設備更替讓用戶更加注重數據的安全問題;同時,某些數據收集行為越過了對個人互聯網特征數據的紅線,數據是否會造成個人隱私的泄露、是否會帶來過度的營銷、是否有可能被精準的侵入,給用戶造成大量的困擾,甚至是經濟損失。
為解決數據隱私問題,在對已有法律法規繼續進行完善的基礎上,也應該有行業規范和行業自律要求,雙管齊下,促使數據產業鏈各方參與者共同打造良好的網絡數據空間,增加對用戶隱私和數據安全的保護,也通過更加人性化的服務產生數據應用的價值。
3
數據加工處理的速度與數據產生的速度不同步
大數據時代,每人每天產生的數據高達數GB,圍繞社交、金融交易、網絡購物、生活記錄等各種應用,服務器租用,全世界每天能夠產生數ZB的數據,這龐大的數據量需要更加龐大的處理能力才能實現有效利用。
但是以目前的計算方法和計算能力,每秒處理的速度遠小于數據產生的速度,只能選擇小范圍的嘗試,像Spark/Hadoop/Flink/Kafka等廣泛應用的計算方法均有待提升。同樣的,對于所需的硬件基礎設施,目前最快的CPU/GPU/NPU其每秒所能提供的計算速度僅達數百MB/s,也無法更快的提升計算能力。這些都限制了數據處理的快速發展。
鑒于此,應該針對不同類型的數據提供不同的處理算法,比如專門針對常規結構化數據或文本數據、音視頻等非結構化數據等的專用計算方法。通過基于各類數據的特點進行并行計算,如結構化數據的小數據、文本數據的數據塊數據、音視頻的采樣壓縮數據等,針對每一種數據進行專門的效率提升。同時,在現有計算芯片的基礎上增加各種類型的協處理器,有效提升數據計算任務的并行處理能力,提升芯片的利用率。
4
數據應用落地難度增加
雖然我們處在大數據時代,但能夠得到有效應用的數據還不足1/10,而其應用方向大部分僅僅是圍繞營銷、風控等方面。
這些主要面向市場的應用雖然幫助企業提升了收入,但是越來越多人對這種缺少選擇空間的應用充滿懷疑,也導致應用水平的下降。而且,這些只看一時、不看長遠的應用方式也有可能導致效果適得其反,用戶被教育之后就會明顯的進行反抗,將會影響到數據的未來應用。
數據應用落地目前顯然受到了環境發展及數據孤島等方面的影響,很多好的想法無法付諸實踐。但是可以考慮通過新興的區塊鏈技術實現行業合作、資源互換、消費者互利等,促進各方的信任,以開放心態,在保護數據安全的前提下更多的釋放數據價值,打造智慧空間的各種應用。
5
數據價值發掘方向不明確
大數據的發展離不開各方參與者,其價值的實現也需要各方通力合作。但是目前大量掌握數據的企業圈地自封,而生產數據的用戶卻成為了被收割的對象。這也引發了圍繞數據價值的喋喋不休的爭論——到底是為了提升用戶體驗,還是收割所剩無幾的互聯網流量紅利?