近期支付寶、微信、銀聯等移動支付企業紛紛搶灘城市公共服務。針對地鐵公交這一場景,目前已經有超過30個城市在支付寶內上線了電子公交卡功能,這意味著——用戶可以丟開匿名的交通卡,使用支付寶及相關應用進行刷碼通行。
和此前共享單車市場相比,軌道交通等公共出行在每個人的生活中都占據了更重要的地位。用“現代支付系統”取代“傳統地鐵充值卡”所能提供的便利,讓很多用戶感到迫不及待。
而在現代支付系統的接入之后,出行的數據也可能繼續用在城市交通管理之中,改善更多其他服務,如改進城市的交通服務、整治擁堵等等。而這些便利存在的前提在于——當今的大數據時代大背景。
高速發展、高吞吐量的大數據時代,絕大多數人都的所有行為逐漸都能在信息世界之中留下數據足跡,無論是用戶主動留下的數字腳印,還是由他人建立的關于用戶的數據。
在此,筆者仍然希望“老生常談地”與大家探討大數據時代的個人隱私問題。
個人與服務商之間的信息不對稱
信息時代下,只要我們使用在線工具和平臺,或者接入平臺的服務,就會產生相應的數據。在一些觀點看來,人人是數據的生產者,可以讓信息變得更透明。但是作為線上服務的使用者,即便有用戶隱私條款的存在,多數的用戶仍然并不了解自己被采集了什么樣的信息,被追蹤了哪些數據。
條款中冗長的文字、專業的術語,都會給普通用戶的精準理解帶來一點困難。除此之外,用戶條款中夾雜的“可能”、“潛在”等詞匯的存在,繼續模糊了好不容易建立起來的一點概念。這些數據的使用狀況,數據分析和挖掘的目標和最終的數據消費者,更是不得而知。
即便一些用戶是較為謹慎的——他們在選擇應用服務的時候會考慮“數據泄漏”帶來的影響,但他們能夠避開的更多只是一些聲譽差的,已經發生過數據泄漏的企業。通常情況下,規模較大的企業能夠享有更好的聲譽和用戶口碑,獲得多數人的信任和青睞。
如果這家服務商的大名家喻戶曉,人人都在使用它的APP,更多的用戶就能放心大膽的進行注冊,然后開始使用這款服務。但顯然,這仍然只是“一廂情愿”的信任,大的企業也可能存在安全漏洞和疏忽。僅在過去的一年中,就繼續曝出了大大小小的數據泄漏事件,其中也有不少知名大企業的身影。
互聯網巨頭 Yahoo 數據泄漏:10億賬號的用戶姓名、生日、郵箱地址、密碼、電話、安全問題和答案全被泄露
美國三大信貸之一 Equifax 數據泄漏:超過 1.43 億的美國用戶數據泄漏,包括姓名,社保號碼,出生日期,地址,及駕駛證信息;20.9 萬用戶的信用卡號,以及部分英國和加拿大用戶信息。
移動出行 Uber 數據泄漏:5700 萬乘客用戶信息泄漏,5萬名司機信息泄露。
深度分析和機器學習在混淆隱私邊界嗎
積累足夠全面的數據才能讓有規律的隨機事件,在大量重復出現的條件下,呈現出幾乎必然的統計特性。
隨著政府的政策支持和公共部門積極進行數據整合,冗余數據中蘊含的戰略和資產方面的價值逐漸浮出水面,企業紛紛著力于進行大數據技術研發與產品化。企業在應用數據進行決策和謀利的同時,仍然會不言而喻地使用用戶的個人數據,使之在整合、關聯和深度分析時受到隱私侵犯。 在當前數據科學和信息技術發展的過程中,隱私信息的界定正在變得不嚴格。
巨大的數據集之下,即便個人提供部分數據字段,也可能被得出一些隱秘的推測,并給用戶帶來風險。
2016年,上海交通大學的一篇機器學習論文《基于面部圖像的自動犯罪概率推斷》曾引起過爭議。相同遭遇的還有2017年斯坦福大學公布的論文《Deep neural networks are more accurate than humans at detecting sexual orientation from facial images》,其中的 AI 算法已經能夠通過個人的肖像照片識別同性戀,且準確率高達81%。
公開在社交網站及其他角落的相片信息中的肖像不存在隱私問題,但對于人臉圖像數據的分析、存儲和使用,隱私權問題依舊面臨挑戰。如果個人用戶并不在意自己在各個角落的信息披露,認為網絡空間僅僅是和普通公共場所一樣,那么當處在隱私邊界時,他們就容易遭到認知偏差的影響,比如過度低估個人信息的利用程度和數據價值。只需要一些公開的信息,運用技術就可以對個人的情況進行推斷、分類甚至“定價”和“特殊對待”。