移動互聯網、云計算和大數據等技術的快速發展,孕育并產生了各種新的服務模式和應用,例如打車、外賣等基于位置的服務,互聯網金融、小額貸款等基于征信的服務等。這些服務和應用一方面采集用戶的相關信息,另一方面為用戶提供精準化、個性化的服務,給人們的生活帶來了極大便利。根據IDC發布的數據,截止到2018年底,中國大數據解決方案市場軟硬服總額達到388.8億元人民幣,并有望在2023年超過800億元人民幣,全球市場則將超過3000億美元。
數據時代,“隱私剛需”已存入現實社會
然而,這些服務所采集的信息中往往含有大量包括病史、收入、身份、興趣及位置等在內的敏感信息,對這些信息的共享、收集、發布、分析與利用等操作會直接或間接地泄露用戶隱私,給用戶帶來極大的威脅和困擾。因此,用戶隱私保護已成為人們廣泛關注的焦點。
去年5月《通用數據保護條例》(即GDPR)在歐盟范圍內正式執行。該條例規定,企業處理個人數據的業務流程必須在設計和默認情況下構建數據保護,這意味著個人數據必須使用假名(Pseudonymization)或完全匿名(data anonymisation)進行存儲,并且默認使用盡可能最高的隱私設置,以避免公開數據未經明確同意被使用。
為了應對日益嚴峻的隱私保護監管措施,科技公司不得不對自己的服務和隱私政策作出修改。以谷歌為例,其不斷修訂的隱私政策中除了在用語及措辭上具有很大的風格轉變,建立了用戶可以部分或者全部刪除自己的信息的體系,還向用戶提供視頻、示例、注解、鏈接跳轉等方式供用戶更進一步了解其隱私政策的整體條款、所收集的用戶信息、收集數據的目的、用戶的隱私控制項等,以保證實現用戶的知情權。
該條例無疑為蓬勃發展的大數據行業套上了沉重的枷鎖。對于數據提供方來說,數據的獲取、保存成本都會極大的提高,而保障數據的更正權和被遺忘權則需要更多的人工和時間成本。對于數據的利用方來說,使用范圍、使用方式都被限制在了很小的范圍內,更不論GDPR對其提出的匿名化、加密化的成本提升。
隱私計算的內部矛盾
除了外部因素之外,隱私數據的處理過程當中還面臨著三個內部矛盾:效率、安全、數據孤島。
安全方面,目前的大數據行業主要依托于可信第三方的計算服務。這些第三方包括主要應用于科研領域的超算中心和主要應用于商業領域的數據中心。大數據行業的高性能、高投入需求讓規?;?、集中化的運算成為了市場主流,2011年起,我國規劃建設了255個數據中心,總設計服務器規模728萬臺,承擔了我國大部分民用數據的計算服務。
但這些集中化、規?;?a href="http://www.qzkangyuan.com/cnidc/dc/">數據中心未免讓人心生疑慮:如何保障企業的“數字黃金”是安全的?就在今年2月,由于阿里云代碼托管平臺的項目權限設置存在歧義,導致開發者操作失誤,造成至少40家以上企業的200多個項目代碼泄露,其中涉及到萬科集團、咪咕音樂、51信用卡旗下51足跡、百度無人車合作伙伴ecarx等知名企業。
可信第三方不一定一直可信,而數據中心可能出現的問題也并不是空穴來風:我國網絡信息安全監管要求,經營增值電信業務的外商投資電信企業外資占股不得超過50%。這意味著外資企業若要在華提供公有云服務,須與國內的云服務企業合作,才能確保服務落地。網絡信息安全中云計算是其中重要的內容,即外企進入到中國市場,須受到電信監管、牌照、數據安全等方面的政策限制。對外如此,對內也如此,第三方帶來的風險是不能被忽視的。
效率方面,在隱私信息的生命周期中,受益于二戰及其后軍事目的的密碼學發展,隱私的加密化、匿名化和脫敏技術都已經非常成熟,可以大規模應用在隱私獲取、儲存、流轉等環節中。但大數據時代的到來,讓隱私數據的處理成為了一個難題:大規模的加密數據處理一定會導致計算性能下降,而非加密數據處理又一定會導致隱私信息的泄露。
最后一點,隨著大數據技術的日益發展,企業間的數據孤島問題也愈發嚴重。隨著大數據產業的發展,政府、企業和其他主體掌握著大量的數據資源,然而由于缺乏數據共享交換協同機制,“數據孤島”現象逐漸顯現。
以保險行業為例,為了進一步吸引客戶,保險公司已經從過去的比質量、拼價格過度到“比個性”。各家保險公司都在“服務個性化”上下功夫,相繼推出了一些吸引客戶的創新服務方式?;谌斯ぶ悄艿亩ㄖ苹kU成為了市場關注的焦點:根據投保人的生活習慣、駕駛習慣、醫療記錄等數據為每個投保人生成針對性的保險服務。在這個過程當中,云主機租用,保險服務提供商希望獲得用戶的消費數據、駕駛習慣、醫療數據等。但鑒于數據可復制的特性,愿意將自己企業獲得的數據進行分享的企業卻沒有幾家,無法獲得這些個性化數據的個性化保險也就無從談起。