因?yàn)?strong> Cambridge Analytica 分析用戶信息進(jìn)行操縱選舉的事件,Facebook如今深陷輿論旋渦,其CEO扎克伯格也在美國時(shí)間4月9日,即他出席美國國會(huì)聽證會(huì)的前一天與美國議員會(huì)面,并為Facebook不當(dāng)使用用戶數(shù)據(jù)道歉。但是,F(xiàn)acebook并非唯一一家收集互聯(lián)網(wǎng)用戶數(shù)據(jù)用于商業(yè)或政治目的的公司。
超過5000萬Facebook用戶的記錄被收集,凸顯出在線用戶挖掘的危險(xiǎn)性。而收集了這些數(shù)據(jù)的公司 Cambridge Analytica,則反映出了這些數(shù)據(jù)的各種利用可能性。Cambridge Analytica 用這些數(shù)據(jù)建立了5000萬用戶賬戶資料,然后在2016大選中用這些賬戶信息為共和黨候選人(特朗普)站臺(tái)。
然而,真正接受 Cambridge Analytica 承包商在線調(diào)查的用戶僅有27萬人。通過收集所有調(diào)查接收者社交網(wǎng)絡(luò)好友的信息,利用相對(duì)較少的用戶形成5000萬用戶的巨大數(shù)據(jù)庫,這種信息收集和利用能力顯露出了社交網(wǎng)絡(luò)的巨大力量。
與網(wǎng)上收集和用戶自愿提交不同,這次被搜刮信息的用戶絕大部分都是受害者,他們并沒有授權(quán) Cambridge Analytica 收集自己的數(shù)據(jù)。
這些數(shù)據(jù)根本就是從用戶手中強(qiáng)拿的,用戶本無意與任何第三方共享,尤其是這么一家之前根本沒聽過的公司。
Cambridge Analytica 從用戶那里騙到的個(gè)人信息的深度和廣度昭示著數(shù)據(jù)收集生態(tài)系統(tǒng)的危險(xiǎn)性。然而,企業(yè)和政治活動(dòng)人士才剛剛開始探索這些數(shù)據(jù)可以用來做些什么。除了可以直接推斷人們的政治觀點(diǎn)、健康問題和生活方式,Cambridge Analytica 還宣稱,人們的看法也是可以借此改變的。
Cambridge Analytica 事件中比較有趣的一點(diǎn)是,人們似乎傾向于輕視看起來像是廣告一樣的東西。但是,這些長(zhǎng)得像廣告的東西向用戶饋送的,才是真正重要的。這并非單純的可口可樂vs百事可樂,它會(huì)扭曲你對(duì)時(shí)事的看法。
數(shù)據(jù)收集與分析公司能從你的線上數(shù)據(jù)中推斷出你的哪些屬性呢?
1. 匿名沒戲
互聯(lián)網(wǎng)上幾乎做不到匿名。即便對(duì)在線發(fā)布信息很謹(jǐn)慎的人都會(huì)發(fā)現(xiàn),通過數(shù)據(jù)收集和數(shù)據(jù)發(fā)布,大范圍分析往往能將看起來毫無關(guān)聯(lián)的事件或者匿名的活動(dòng)聯(lián)系在一起。
比如說,2008年的一篇論文中,德州大學(xué)奧斯汀分校的研究人員就發(fā)現(xiàn),在IMDb上發(fā)布了幾條電影推介的用戶,就身處Netflix用于調(diào)研目的而發(fā)布的匿名電影推薦的大型數(shù)據(jù)庫中。
這種泄露能造成重大影響。給流行電影打分的人會(huì)發(fā)現(xiàn)自己被納入了更大的數(shù)據(jù)集,自己私下打過分的其他成百上千部電影都與自己關(guān)聯(lián)了起來。
電影評(píng)分可揭示出評(píng)分者的多種屬性,比如性向、政治偏好和健康問題。雖然不應(yīng)該單單從電影偏好上進(jìn)行推斷,但在許多工作和社交場(chǎng)合,對(duì)《同志亦凡人》這種同性戀主題電影所持的觀點(diǎn)(在Netflix觀影記錄中會(huì)有所體現(xiàn)),云服務(wù)器租用,往往比較敏感。
來自社交網(wǎng)絡(luò)、地理位置數(shù)據(jù)和在線閱讀偏好的數(shù)據(jù)也可應(yīng)用類似的關(guān)聯(lián)和分析技術(shù)。
2. 發(fā)現(xiàn)瀏覽習(xí)慣
瀏覽記錄能說明很多問題,而有興趣的公司和數(shù)據(jù)代理商就用各種各樣的辦法來收集此類信息。2016年,德國公共廣播電視公司NDR的一名調(diào)查記者和一名數(shù)據(jù)科學(xué)家發(fā)現(xiàn),名為 Web of Trust 的一款瀏覽器插件一直在收集300萬名德國用戶的瀏覽器歷史記錄。
由于很多社交媒體站點(diǎn)都在鏈接中帶有用戶ID,瀏覽器歷史記錄去匿名化并不難。某些案例中,僅僅知道某人使用的部分站點(diǎn)就足以在Web鏈接數(shù)據(jù)庫中找出他們。
完全不用瀏覽器插件也避免不了被標(biāo)定的命運(yùn)。某些情況下,各種漏洞就讓不道德的Web站點(diǎn)具備了發(fā)現(xiàn)瀏覽者是否瀏覽過其他站點(diǎn)的能力。這種“歷史嗅探”技術(shù)的用法很多,找到信息就像檢測(cè)鏈接是否被訪問過一樣簡(jiǎn)單。
另外,廣告網(wǎng)絡(luò)還會(huì)從瀏覽過加載了其廣告的站點(diǎn)的任何瀏覽器上收集信息,在用戶瀏覽各個(gè)網(wǎng)站的時(shí)候通過安裝cookie或其他追蹤數(shù)據(jù)來標(biāo)記用戶。廣告情報(bào)公司eMarketer的數(shù)據(jù)顯示,消費(fèi)者對(duì)此類跟蹤技術(shù)的擔(dān)憂正是廣告攔截器使用率穩(wěn)步上升的原因之一——今年攔截器的使用率有望升至31%。
3. 確定政治立場(chǎng)
Cambridge Analytica 已因非法收集用戶數(shù)據(jù)用于政治活動(dòng)建模而處于輿論的風(fēng)口浪尖了。不過,該技術(shù)的準(zhǔn)確率很大程度上取決于所用的數(shù)據(jù),域名注冊(cè),也不是總那么準(zhǔn)確。舉個(gè)例子,2013年,加拿大麥吉爾大學(xué)的2名研究人員發(fā)現(xiàn),其他研究論文就對(duì)通過機(jī)器學(xué)習(xí)檢測(cè)政治偏向性的能力太過樂觀了:驗(yàn)證數(shù)據(jù)集的收集方式才是模型準(zhǔn)確率的決定因素,不管過去的成果多么斐然,所用方法多么先進(jìn)。