為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重開幕。6月5日,大數據安全論壇隆重舉行。
廖主任通過大量的實際檢測案例,給我們發出了安全預警,不是說我們上了一些安全的技術手段就可以高枕無憂了,比如剛才說到數據水印的問題,頁面同樣會存在被繞過的風險和漏洞。最后我們有請今天論壇的最后一位演講嘉賓,是來自中國信通院云計算與大數據研究所的王卓先生,他演講的主題是《脫敏標準為何如此重要》,有請!
大家好,我是來自信通院云大所的王卓,之前跟會務報題目的時候報錯了,應該是數據脫敏為什么如此重要,今天大數據安全論壇前面來自政產學各個不同方面的專家們分別從金融角度,或者法律法規,或者技術檢測等等技術家度都講到了信息安全相關的東西。我這里代表云大所主要講一些關注脫敏技術,還有這方面的相關的標準化工作方面的內容。片子很短,我也不太會耽誤大家吃飯時間。
首先是背景,數據安全的現狀大家都提了很多遍,Facebook的數據泄露、還有數據堂的例子,我不詳細講了,相關的法律法規、還有標準文件的出臺,比如最近推出的《數據安全管理辦法(征求意見稿)》,看到這些安全現狀,我們在對數據進行構想流通的時候其實是不暢的,我們想對數據進行挖掘和分析的時候是受到這些東西的制約。但是實際上我們想對數據價值釋放的期待是非常巨大的,我們依舊需要一些技術手段解決這些問題。
在《數據安全管理辦法(征求意見稿)》中找到這樣的一系信息,對于個人信息的保存和提供要經過匿名化處理,我們在正常生產和使用中,需要在很多環節對敏感數據進行共享和使用的時候存在一些數據泄露的風險的場景中,數據脫敏是必經環節。法律法規和行業要求,對數據脫敏的時候有脫敏程度的要求,比如匿名化、去標識化,匿名化是對個人信息處理之后,使得個人信息主體無法被識別。去標識化是處理后不借助額外信息的情況下無法識別個人信息主體的過程。
這是具體的數據脫敏技術的介紹,在昨天的主論壇上,我發布了一下基于多安全計算,多安全計算是我不希望我的數據給出去,在這樣的情況下我要完成計算,歐洲服務器,數據處理的脫敏在于我還要把數據給出去,但是給出去的不是很有安全風險的數據。數據脫敏技術的主要目標就是通過對敏感數據進行相應特定脫敏算法進行變形轉換,以降低數據的敏感程度,擴大數據可共享和被使用的范圍。一般脫敏算法有加解密、掩碼、替換和模糊。上面是我的個人信息,我的姓名、手機號和身份證號,常見的信息一定是敏感數據,還有我的照片在上面,這樣一個證件我要進行脫敏會得到右邊圖上的結果,首先最明顯的看到我的照片已經被打碼,我不怕了,姓名完全替換成另外一個名字,手機號使用的是常見的中間四位掩碼,身份證號變成另外一個號碼,這是體現了脫敏的方法,而且也有不同的差異,如果我們把姓名的脫敏是一個完全一對一的對照,我們對姓名進行脫敏的時候,所有的都能脫敏成張三、李四,有可能可以被復原回來,只是去標識化。另外對于身份證號這種有很明顯的合理結構數據進行脫敏的時候,可以使數據維持相應的結構,這樣一種脫敏的做法可以保持數據一定的可用性,如果在挖掘分析中需要用到的時候是很有用的。
數據的可用范圍,正常情況下數據是只能存在于生產環境中,經過脫敏之后就可以進行在測試環境中存儲、開放領域存儲以及對外部開放訪問。敏感數據提到個人隱私數據、企業業務數據,還有數據分級分類很高的數據。還有數據源、數據類型,最早的數據源是指關系的數據結構,尤其是在數據類型部分,最早數據脫敏的主要是針對數值和文本這種很基本的模式,現在對于圖片脫敏、對音頻、視頻都需要有脫敏。
脫敏技術中兩個比較重要的概念,一個是靜態脫敏,還有一個是動態脫敏。靜態脫敏簡單說就是對數據進行批量化脫敏,一般用在測試開發或者是對外完整的數據集外發的場景中,主要特點是數據會發生批量的轉移。靜態脫敏這個技術可以視作是ETL脫敏,跟ETL很像。靜態脫敏應用的場景,剛才說到有一些結構化的數據或者有一些數據的統計信息,我們希望它能夠在脫敏之后繼續維持,這個數據集的可用性是不能被破壞的,這個時候脫敏的很多算法是能夠做到這一點的。