毫無疑問,作為技術(shù)概念的“大數(shù)據(jù)”擁有光明的前途,它是人工智能的基石,是未來世界的“石油”。但作為生意的“大數(shù)據(jù)”,在中國正走到一個關(guān)鍵的轉(zhuǎn)折點。
從業(yè)者都很焦慮。對大眾來說,2019年3月以來,圍繞著“大數(shù)據(jù)”而密集發(fā)生的丑聞似乎是一種監(jiān)管加緊的信號——前有“315”晚會上集中曝光的大數(shù)據(jù)黑色產(chǎn)業(yè)鏈,后有號稱擁有8億國人真實信息的“大數(shù)據(jù)公司”——巧達(dá)科技被查。但對于一向嗅覺靈敏的中國大數(shù)據(jù)行業(yè)的從業(yè)者們來說,這并不突然。
從2017年底開始,中央網(wǎng)信辦、工信部、公安部和國家標(biāo)準(zhǔn)委等部門就開始密集合作,針對國內(nèi)大數(shù)據(jù)行業(yè)野蠻生長中的各種亂象展開各種行動。進入2018年,相關(guān)工作組先后多次對微信和淘寶等“國民級”應(yīng)用進行隱私保護評估,提出整改意見。同時,重點垂直行業(yè)和地方監(jiān)管機構(gòu)也明顯提高了約談頻率。2019年2月,銀監(jiān)會和保監(jiān)會約談銀行高管,談及app收集信息的問題;上海網(wǎng)信辦連續(xù)約談轄區(qū)內(nèi)應(yīng)用程序,而北京市公安部門也在“凈網(wǎng)2019”行動中將“非法爬取數(shù)據(jù)”作為整治重點。
2019年1月,中央網(wǎng)信辦、工信部和公安部牽頭的多個機構(gòu)開始對違規(guī)收集數(shù)據(jù)信息進行專項治理,被業(yè)內(nèi)形容為“史上力度最大”的治理行動。此后,相關(guān)部門還著手制定“大眾化應(yīng)用基本業(yè)務(wù)功能及必要信息規(guī)范”,3月,工作組更直接在微信上開通公眾號“App 個人信息舉報”,直接接受用戶的侵權(quán)舉報,并在4月就對30多款應(yīng)用提出整改要求。
在PingWest品玩與近10名來自大型互聯(lián)網(wǎng)公司數(shù)據(jù)部門以及“大數(shù)據(jù)公司”的從業(yè)者的接觸中,他們普遍認(rèn)為,315晚會“抓典型”和“巧達(dá)數(shù)據(jù)”被整治,更像是一系列行動的結(jié)果,而非開始。
“其實能感受到所有的環(huán)境都跟兩年前不同了,美國有Facebook出的事,歐洲又有GDPR(《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,簡稱GDPR,為歐盟條例——PingWest品玩注),以前覺得這都不影響我們國內(nèi)的業(yè)務(wù),但去年以來一扭頭卻發(fā)現(xiàn),國內(nèi)管得也更嚴(yán)了。”一家總部在杭州的電商公司相關(guān)數(shù)據(jù)算法部門的團隊高層對PingWest品玩說。
然而,無比焦慮的從業(yè)者們似乎仍然沒有意識到,監(jiān)管層面的變化背后,本質(zhì)還是國內(nèi)廣大用戶們數(shù)據(jù)隱私意識的覺醒。
“我們最近的政策法規(guī)研究以及行動的節(jié)奏很大程度是受到大眾對隱私保護的意識覺醒的影響。”一名接近公安第三研究所網(wǎng)絡(luò)安全法律研究中心的人士對PingWest品玩透露。他們正參與到多部委聯(lián)合推進的個人信息保護法律法規(guī)研究中。3月上線的“App 個人信息舉報”微信公號投訴平臺,某種意義上就是在幫助法規(guī)制定者們更直接的感受大眾的態(tài)度。新華社的一篇報道介紹這個公眾號處理投訴的方式:“對于用戶實名舉報的信息,工作組逐一與舉報人溝通。”
很明顯,在監(jiān)管者以及廣大用戶看來,“大數(shù)據(jù)”在中國作為一門生意,如今在各個環(huán)節(jié)都已出現(xiàn)必須糾正的問題。
誰的數(shù)據(jù),被誰拿走了?
2018年4月23日晚,北京市公安部門公布了此前“巧達(dá)數(shù)據(jù)”被查案件的細(xì)節(jié)。這也與PingWest品玩與多位從業(yè)者探討時的判斷接近:一家被巧達(dá)數(shù)據(jù)爬取過簡歷數(shù)據(jù)的公司,向公安舉報了巧達(dá)。之后北京警方在數(shù)個月的調(diào)查取證后,將其作為”凈網(wǎng)2019“行動中的典型,予以處理并拘捕了公司實際控制人。
根據(jù)警方通報:“嫌疑人通過利用大量代理IP地址、偽造設(shè)備標(biāo)識等技術(shù)手段,繞過該公司服務(wù)器防護策略,大量竊取存放在服務(wù)器上的用戶數(shù)據(jù)…… 經(jīng)初步查明,巧達(dá)科技公司采用技術(shù)手段在未經(jīng)授權(quán)的情況下,惡意竊取上述報案公司的用戶數(shù)據(jù),并將其用于自身經(jīng)營。”
也就是說,巧達(dá)的問題首先出在其過激的“爬蟲”行為上。
“爬蟲”指的是開發(fā)者設(shè)計一套程式讓它按照一定規(guī)則,自動抓取互聯(lián)網(wǎng)上的海量信息。一位曾在巧達(dá)數(shù)據(jù)短暫工作的員工對PingWest品玩表示,他們的團隊有不少來自主流招聘平臺的員工,他們往往對前公司的系統(tǒng)比較熟悉,能夠更高效地爬取平臺上的簡歷,在反爬蟲措施出現(xiàn)之前完成足夠多的抓取。據(jù)他介紹,這種爬取招聘網(wǎng)站簡歷的方式,在所謂的“簡歷大數(shù)據(jù)”公司是一種常態(tài)。
與巧達(dá)數(shù)據(jù)收集數(shù)據(jù)方式相似的還有許多,比如總部位于上海的e成數(shù)據(jù)。e成數(shù)據(jù)的員工對PingWest品玩透露:這家公司的數(shù)據(jù)來自獵聘和智聯(lián)招聘等網(wǎng)站爬取,其官方網(wǎng)站聲稱“積累了1.3億份有效簡歷”。今年3月,e成再次獲得C輪8000萬人民幣的融資。