毫無疑問,作為技術概念的“大數據”擁有光明的前途,它是人工智能的基石,是未來世界的“石油”。但作為生意的“大數據”,在中國正走到一個關鍵的轉折點。
從業者都很焦慮。對大眾來說,2019年3月以來,圍繞著“大數據”而密集發生的丑聞似乎是一種監管加緊的信號——前有“315”晚會上集中曝光的大數據黑色產業鏈,后有號稱擁有8億國人真實信息的“大數據公司”——巧達科技被查。但對于一向嗅覺靈敏的中國大數據行業的從業者們來說,這并不突然。
從2017年底開始,中央網信辦、工信部、公安部和國家標準委等部門就開始密集合作,針對國內大數據行業野蠻生長中的各種亂象展開各種行動。進入2018年,相關工作組先后多次對微信和淘寶等“國民級”應用進行隱私保護評估,提出整改意見。同時,重點垂直行業和地方監管機構也明顯提高了約談頻率。2019年2月,銀監會和保監會約談銀行高管,談及app收集信息的問題;上海網信辦連續約談轄區內應用程序,而北京市公安部門也在“凈網2019”行動中將“非法爬取數據”作為整治重點。
2019年1月,中央網信辦、工信部和公安部牽頭的多個機構開始對違規收集數據信息進行專項治理,被業內形容為“史上力度最大”的治理行動。此后,相關部門還著手制定“大眾化應用基本業務功能及必要信息規范”,3月,工作組更直接在微信上開通公眾號“App 個人信息舉報”,直接接受用戶的侵權舉報,并在4月就對30多款應用提出整改要求。
在PingWest品玩與近10名來自大型互聯網公司數據部門以及“大數據公司”的從業者的接觸中,他們普遍認為,315晚會“抓典型”和“巧達數據”被整治,更像是一系列行動的結果,而非開始。
“其實能感受到所有的環境都跟兩年前不同了,美國有Facebook出的事,歐洲又有GDPR(《通用數據保護條例》(General Data Protection Regulation,簡稱GDPR,為歐盟條例——PingWest品玩注),以前覺得這都不影響我們國內的業務,但去年以來一扭頭卻發現,國內管得也更嚴了。”一家總部在杭州的電商公司相關數據算法部門的團隊高層對PingWest品玩說。
然而,無比焦慮的從業者們似乎仍然沒有意識到,監管層面的變化背后,本質還是國內廣大用戶們數據隱私意識的覺醒。
“我們最近的政策法規研究以及行動的節奏很大程度是受到大眾對隱私保護的意識覺醒的影響。”一名接近公安第三研究所網絡安全法律研究中心的人士對PingWest品玩透露。他們正參與到多部委聯合推進的個人信息保護法律法規研究中。3月上線的“App 個人信息舉報”微信公號投訴平臺,某種意義上就是在幫助法規制定者們更直接的感受大眾的態度。新華社的一篇報道介紹這個公眾號處理投訴的方式:“對于用戶實名舉報的信息,工作組逐一與舉報人溝通。”
很明顯,在監管者以及廣大用戶看來,“大數據”在中國作為一門生意,如今在各個環節都已出現必須糾正的問題。
誰的數據,被誰拿走了?
2018年4月23日晚,北京市公安部門公布了此前“巧達數據”被查案件的細節。這也與PingWest品玩與多位從業者探討時的判斷接近:一家被巧達數據爬取過簡歷數據的公司,向公安舉報了巧達。之后北京警方在數個月的調查取證后,將其作為”凈網2019“行動中的典型,予以處理并拘捕了公司實際控制人。
根據警方通報:“嫌疑人通過利用大量代理IP地址、偽造設備標識等技術手段,繞過該公司服務器防護策略,大量竊取存放在服務器上的用戶數據…… 經初步查明,巧達科技公司采用技術手段在未經授權的情況下,惡意竊取上述報案公司的用戶數據,并將其用于自身經營。”
也就是說,巧達的問題首先出在其過激的“爬蟲”行為上。
“爬蟲”指的是開發者設計一套程式讓它按照一定規則,自動抓取互聯網上的海量信息。一位曾在巧達數據短暫工作的員工對PingWest品玩表示,他們的團隊有不少來自主流招聘平臺的員工,他們往往對前公司的系統比較熟悉,能夠更高效地爬取平臺上的簡歷,在反爬蟲措施出現之前完成足夠多的抓取。據他介紹,這種爬取招聘網站簡歷的方式,在所謂的“簡歷大數據”公司是一種常態。
與巧達數據收集數據方式相似的還有許多,比如總部位于上海的e成數據。e成數據的員工對PingWest品玩透露:這家公司的數據來自獵聘和智聯招聘等網站爬取,其官方網站聲稱“積累了1.3億份有效簡歷”。今年3月,e成再次獲得C輪8000萬人民幣的融資。