隨著信息技術(shù)的高速發(fā)展,各用戶單位業(yè)務(wù)系統(tǒng)經(jīng)過多年沉淀,積累了大量個(gè)人隱私數(shù)據(jù)和企業(yè)信息。海量數(shù)據(jù)除了內(nèi)部流轉(zhuǎn),還需要進(jìn)行外部“共享”,這亦是國家大數(shù)據(jù)發(fā)展戰(zhàn)略規(guī)劃的需求和前提。如何保證數(shù)據(jù)在產(chǎn)生、交換、共享等場景下的安全可用?這讓數(shù)據(jù)脫敏安全技術(shù)成為熱門。
《網(wǎng)絡(luò)安全法》的正式實(shí)施,數(shù)據(jù)脫敏被納入法規(guī)遵從的需求。《網(wǎng)絡(luò)安全法》要求:數(shù)據(jù)流動過程中應(yīng)重視保護(hù)個(gè)人隱私、社保信息、資產(chǎn)信息、醫(yī)療信息等敏感信息的安全。為滿足這一要求,數(shù)據(jù)共享時(shí)需要使用數(shù)據(jù)脫敏技術(shù)。特別是當(dāng)數(shù)據(jù)應(yīng)用于開發(fā)、測試、培訓(xùn)等環(huán)境時(shí),安全風(fēng)險(xiǎn)較大,使用真實(shí)數(shù)據(jù)將臨嚴(yán)重數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
數(shù)據(jù)脫敏又稱數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是在給定的規(guī)則、策略下對敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,能夠在很大程度上解決敏感數(shù)據(jù)在不可控環(huán)境中使用的問題。國內(nèi)銀行、通信運(yùn)營商等是最早開始使用數(shù)據(jù)脫敏工具的單位,多以靜態(tài)脫敏為主。
市面上有諸多靜態(tài)脫敏產(chǎn)品,如何做挑選?本文將從這些脫敏產(chǎn)品的技術(shù)路線進(jìn)行分析,從使用效果出發(fā),淺析各種技術(shù)在脫敏過程中使用效果上存在的差異,呈現(xiàn)產(chǎn)品真正能實(shí)現(xiàn)的功能和價(jià)值。希望能為廣大用戶在數(shù)據(jù)脫敏產(chǎn)品的選型上提供參考。
一、脫敏系統(tǒng)的數(shù)據(jù)獲得方式
數(shù)據(jù)脫敏第一步,需要獲得數(shù)據(jù)庫中的數(shù)據(jù)。如何獲得數(shù)據(jù)主要有以下幾種方式:
1. 代理軟件
使用代理軟件,部署在數(shù)據(jù)庫上從數(shù)據(jù)庫讀取數(shù)據(jù)。這種方式的脫敏產(chǎn)品對用戶方來說是侵入式的,只有極少數(shù)產(chǎn)品才這樣使用。市面上數(shù)據(jù)備份廠商的數(shù)據(jù)脫敏產(chǎn)品會采用這種方式,因?yàn)槔脗浞蒈浖蛻舳俗鳛閿?shù)據(jù)脫敏的數(shù)據(jù)采集工具使用,速度較快。
2. 數(shù)據(jù)庫開發(fā)接口
這種針對不同的數(shù)據(jù)庫開發(fā)接口方式的有點(diǎn)在于數(shù)據(jù)采集速度較快,市面上大部分脫敏產(chǎn)品采用此種方式。這種采集方式的缺點(diǎn)也很明顯,數(shù)據(jù)庫類型太多,脫敏產(chǎn)品支持的數(shù)據(jù)庫類型與版本都會受限制。如果用戶將來升級了數(shù)據(jù)庫版本,國外域名 免費(fèi)域名,除非脫敏廠商也花精力開發(fā)升級版本,否則采購的脫敏產(chǎn)品可能無法繼續(xù)支持。
3. ETL技術(shù)
這種采集技術(shù)的優(yōu)勢是兼容性大,ETL工具兼容的數(shù)據(jù)庫類型是最全面的。當(dāng)然這個(gè)方式也有弱點(diǎn),由于不是專門針對特定數(shù)據(jù)庫類型開發(fā),在沒有強(qiáng)大的ETL技術(shù)積累的情況下,采集數(shù)據(jù)的速度一般。從國外脫敏廠商來看,具備有一定ETL技術(shù)積累優(yōu)勢大多采用此種技術(shù),如:Informatica 。而國內(nèi)脫敏廠商中,大多數(shù)廠商主業(yè)并不是大數(shù)據(jù)處理,沒有ETL工具的技術(shù)能力而很少采用。
二、數(shù)據(jù)落地與否
數(shù)據(jù)落地是指數(shù)據(jù)脫敏過程中,數(shù)據(jù)需要保存到脫敏系統(tǒng)后再進(jìn)行脫敏。數(shù)據(jù)落地的好處是,獲得了需要脫敏的全部數(shù)據(jù)后再脫敏,對數(shù)據(jù)關(guān)系、業(yè)務(wù)關(guān)聯(lián)方面容易處理與實(shí)現(xiàn)。但問題是,數(shù)據(jù)落地需要脫敏系統(tǒng)也具有數(shù)據(jù)源同樣大小的存儲空間,對脫敏系統(tǒng)的存儲要求較高,同時(shí)進(jìn)行多業(yè)務(wù)數(shù)據(jù)源脫敏的情況下,還需要對接存儲系統(tǒng),不僅硬件成本高,還存在安全困擾。
數(shù)據(jù)脫敏從信息安全的職責(zé)分離的要求下出發(fā),脫敏系統(tǒng)的管理者為安全管理員,將DBA接觸敏感數(shù)據(jù)場景剝離出來,同時(shí)安全管理員不具有DBA權(quán)限也無法查看全部的敏感數(shù)據(jù)。但在數(shù)據(jù)落地的情況下,安全管理員可以從數(shù)據(jù)脫敏系統(tǒng)內(nèi)獲得全部敏感數(shù)據(jù),這就違背了職責(zé)分離的初衷。
市面上大部分產(chǎn)品不會采用此種數(shù)據(jù)落地方式脫敏,新加坡云主機(jī) 香港云主機(jī),只有少數(shù)由于沒有ETL技術(shù),也沒有針對不同數(shù)據(jù)庫開發(fā)接口,擁有備份技術(shù)積累的脫敏廠商會使用這種脫敏方式。
三、脫敏算法的復(fù)雜程度