去年以來,隨著互聯網金融尤其是消費金融的火速發展,大數據風控也火爆起來,不少專注于大數據風控的公司,如百融、量化派、同盾科技、聚信力等頗受資金市場追捧。與此同時,這類公司也存在一系列問題,比如信息源獲取的合法性、利用數據的有效性等等。今年5月開始,監管也開始了對大數據行業的清查。再加上近期有媒體稱由中國互聯網金融協會牽頭,包括首批個人征信試點機構中的芝麻信用、騰訊征信等相關機構,欲攜手打造的個人征信機構“信聯”,可以預見,將對大數據行業帶來很大沖擊。未來,行業也將迎來一輪洗牌。
海量數據是基礎,用于防范欺詐和信用風險
近年來,隨著傳統銀行轉型、網貸平臺限額,消費金融、現金貸由于無需抵押可以迅速上量,由此催生了基于大數據應用的線上精準獲客和風控體系。
據業內人士介紹,大數據風控服務,主要包括利用大數據技術來防范欺詐風險和信用風險。
欺詐風險一般就是我們常說的識別“黑、灰、白名單”,黑名單就是我們俗稱的“老賴”,惡意賴賬的人群,白名單即是信用記錄良好的人群,而灰名單則為兩者之間;防范信用風險則是依托大數據描述的用戶圖像,比如受教育程度、行為偏好、工作是否穩定等,據此來綜合預測個人還款能力。
大數金融首席風險官漆瑾聲曾對新快報記者表示,國內所說的“大數據”,在美國習慣被稱之為“替代性數據”(Alternative Data)。這是源于當時美國有部分人群個體征信數據的缺失,于是水、電、煤等這些替代性數據就派上用場了。
他表示,依照與個人信用關聯程度,數據可以大體分為兩類:一種是傳統征信數據,也就是強相關數據;另一種是弱相關數據,比如社交數據、水電煤及經營數據等。
他表示,現在國內注冊的大數據公司有數萬家,但不少公司的數據源都是“替代性數據”或弱相關數據。“只有經過實踐驗證過的數據才是有效數據,現在市場上普遍流行的社交信息、非還款負債信息等,嚴格來說不屬于準確意義上的征信數據。”
由于目前國內征信體系的不完善,因此目前行業中的大數據以弱相關數據為多,包括利用一些行業數據、用戶的互聯網瀏覽數據、司法執行數據、第三方信用數據、出行數據、電商平臺的交易數據、電話通信數據和社交數據等等。
數據來源大多不明,是否得到用戶授權是關鍵
“很多大數據風控公司的數據獲取并未獲得政府部門渠道查詢的授權,數據要么是爬取的,要么是各種渠道購買的。”有業內人士表示。
在網絡上,也有很多售賣用戶信息的公司。這類公司可以公開爬取用戶支付寶、網貸賬號、郵箱、網銀等信息。行業中購買數據已然成了“公開的秘密”。從各個渠道挖取用戶數據,通過電話號碼、身份證等唯一標識碼(對某一類數據中某個實體進行唯一標識的代碼),進行不同數據的整合,最終挖掘出用戶的有用價值,加以變現。
“公司之間隨意將用戶隱私信息進行交換、交易等,這實在是太正常的情況了。”該負責人表示。此前,在販賣個人信息的QQ群中,新快報記者也注意到,曾有中介打出0.5元購買一人家庭住址的信息。
不少大數據公司的產品說明書中均表述有著大量電商風險名單,但是對于這類數據是否得到合規授權卻鮮有披露。比如新快報記者獲得某知名數據風控公司業務介紹PPT中關于數據概括一欄就顯示“有千萬級失信名單,來源于合作伙伴反饋的黑名單;10億+的互聯網泄露數據等”,但并未顯示這些數據是否得到用戶授權。
不過,該公司相關負責人則表示前述業務介紹為2016年以前的舊版本,“公司業務均合法合規,相關業務開展都以授權和脫敏為前提。”
有業內人士表示,大數據公司最需要注意的地方,在取數據時“是否得到客戶授權”。這決定了數據獲取的可持續性。早在去年征信管理局就出臺《征信業務管理辦法(草稿)》,規定了信息使用需獲信息主體授權同意;今年6月開始實施的《中華人民共和國網絡安全法》也規定了任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息。
有業內人士透露,目前行業中從網絡獲取大數據分為兩種,一種是爬蟲技術,又分為公開信息爬取和授權爬取。公開信息則可以通過各類公開網站信息獲取,但是后者爬取涉及用戶個人信息的比如電商網站則需要得到用戶授權。